针对目标交易的风险评估方法及装置
技术领域
本说明书实施例涉及对机器学习的算法框架进行改进,应用于风险评估技术领域,具体地,涉及针对目标交易的风险评估方法及装置、用于对目标样本进行分类的方法及装置。
背景技术
人们越来越频繁使用各种各样的服务平台中所提供的服务,由此将产生大量的交易。进一步地,服务平台希望可以对其中发生的交易进行风险评估,以根据评估结果决定是否对该交易进行干预操作,例如,当评估出交易风险低时,准许交易成功完成,当评估出交易风险中等时,要求用户进行身份认证,而当评估出交易风险高时,直接中断交易或冻结用户账户。因此,对交易风险的准确评估尤为重要。
通常情况下,可以采用历史交易数据训练预测模型,实现风险评估。然而,某些服务平台出于不同原因,例如,刚上线等,其用于训练预测模型的数据量不足,导致训练出的预测模型性能不佳。
因此,迫切需要一种可靠的方案,可以基于服务平台中有限的历史交易数据,实现对该服务平台中所发生交易的风险评估。
发明内容
本说明书中的一个或多个实施例提供的一种针对目标交易的风险评估方法及装置,通过改进对抗迁移算法框架,大幅提高针对目标交易进行风险评估所得评估结果的准确性。
第一方面,提供一种针对目标交易的风险评估方法,该方法包括:将目标域服务平台中的第一原始交易数据输入第一特征映射模型中,得到模拟源域服务平台中交易数据的第一模拟交易数据;将所述第一模拟交易数据输入第二特征映射模型中,得到模拟所述第一原始交易数据的第一复原交易数据;确定所述第一原始交易数据和所述第一复原交易数据之间的相似度;基于所述相似度,至少训练所述第一特征映射模型;其中,所述第一特征映射模型用于将目标域服务平台中待评估的目标交易的交易数据转换为模拟交易数据,进而将所述模拟交易数据输入至少基于所述第二服务平台中的交易数据训练得到的风险评估模型中,对应得到针对所述目标交易的风险评估结果。
在一个实施例中,所述确定所述第一原始交易数据和所述第一复原交易数据之间的相似度,包括:计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的差值的绝对值,作为所述相似度;或,计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的平方差,作为所述相似度。
在一个实施例中,所述基于所述相似度,至少训练所述第一特征映射模型,还包括:基于所述相似度,训练所述第二特征映射模型。
在一个实施例中,所述方法还包括:将源域服务平台中的第二原始交易数据输入所述第一特征映射模型中,得到第二修正交易数据;利用所述第二修正交易数据和预先获取的所述第二原始交易数据的风险标签,训练所述风险评估模型。
第二方面,提供一种用于对目标样本进行分类的方法,其中,所述方法包括:将目标域中的第一原始样本输入第一特征映射模型中,得到模拟源域中样本的第一模拟样本,所述目标域和所述源域具有相同的分类任务;将所述第一模拟样本输入第二特征映射模型中,得到模拟所述第一原始样本的第一复原样本;确定所述第一原始样本和所述第一复原样本之间的相似度;基于所述相似度,至少训练所述第一特征映射模型;所述第一特征映射模型用于将所述目标域中待分类的目标样本转换为模拟源域中样本的模拟样本,进而将所述模拟样本输入至少基于所述源域中的样本训练得到的分类模型中,对应得到针对所述目标样本的分类结果。
第三方面,提供一种针对目标交易的风险评估装置,所述装置包括:第一转换单元,配置为将目标域服务平台中的第一原始交易数据输入第一特征映射模型中,得到模拟源域服务平台中交易数据的第一模拟交易数据;第二转换单元,配置为将第一模拟交易数据输入第二特征映射模型中,得到模拟所述第一原始交易数据的第一复原交易数据;确定单元,配置为确定所述第一原始交易数据和所述第一复原交易数据之间的相似度;第一训练单元,配置为基于所述相似度,至少训练所述第一特征映射模型;所述第一特征映射模型用于将目标域服务平台中待评估的目标交易的交易数据转换为模拟交易数据,进而将所述模拟交易数据输入至少基于所述第二服务平台中的交易数据训练得到的风险评估模型中,对应得到针对所述目标交易的风险评估结果。
第四方面,提供一种用于对目标样本进行分类的装置,所述装置包括:第一转换单元,配置为将目标域中的第一原始样本输入第一特征映射模型中,得到模拟源域中样本的第一模拟样本,所述目标域和所述源域具有相同的分类任务;第二转换单元,配置为将所述第一模拟样本输入第二特征映射模型中,得到模拟所述第一原始样本的第一复原样本;确定单元,配置为确定所述第一原始样本和所述第一复原样本之间的相似度;第一训练单元,配置为基于所述相似度,至少训练所述第一特征映射模型;其中,所述第一特征映射模型用于将所述目标域中待分类的目标样本转换为模拟源域中样本的模拟样本,进而将所述模拟样本输入至少基于所述源域中的样本训练得到的分类模型中,对应得到针对所述目标样本的分类结果。
第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面中提供的方法。
第六方面,提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面中提供的方法。
在本说明书实施例披露的针对目标交易的风险评估方法中,通过引入Cycle GAN中的回路一致性(Cycle consistency),可以使拟合后的目标域服务平台和源域服务平台的数据分布更为接近,且目标域服务平台的数据在调整后仍能具有自身数据域的某些分布特点。进一步地,还可以引入WGAN中的损失函数,实现模型的进一步优化。由此得到的用于转换待评估的目标交易的交易数据的第一特征映射模型和风险评估模型,可以提高对目标交易进行风险评估的准确度。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的对目标交易进行风险评估的流程框图;
图2示出根据一个实施例的模型连接框图;
图3示出根据一个实施例的针对目标交易的风险评估方法流程图;
图4示出根据一个实施例的用于对目标样本进行分类的方法流程图;
图5示出根据一个实施例的针对目标交易的风险评估装置结构图;
图6示出根据一个实施例的用于对目标样本进行分类的装置结构图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
如前所述,迫切需要一种可靠的方案,可以基于服务平台中有限的历史交易数据,实现对该服务平台中交易的风险评估。此外,发明人还发现,虽然有的服务平台(以下称为目标域服务平台)中所具有的历史交易数据量很少,甚至没有标签,但是,还有的服务平台(以下称为源域服务平台),如已经运营多年的服务平台,中具有丰富的历史交易数据,且具有对应的风险标签。然而,因为目标域服务平台中的交易数据和源域服务平台的交易数据之间通常存在数据分布的差异,这种差异导致直接将基于源域服务平台的历史交易数据训练的模型用到目标域服务平台的风险评估任务上时,模型的效果会大打折扣。
基于以上观察,发明人提出,引入领域自适应(Domain Adaptation)的思想解决上述问题。通俗来说,领域自适应就是使源域训练好的模型能够用在目标域的任务上,其所解决的问题是,减小源域和目标域的数据分布的差异,或者说,对源域和目标域的数据分布进行拟合以使其一致。
相应地,应用在针对目标交易进行风险评估的场景中,引入领域自适应所解决的问题是,对源域服务平台中交易数据和目标域服务平台中交易数据的数据分布进行拟合,使其一致。
进一步地,发明人提出,可以利用对抗方法实现领域自适应。具体地,在一种实施方式下,可以得到图1中示出的特征生成模型110和风险评估模型120,其中风险评估模型120可以是基于源域服务平台中的历史交易数据和对应的标签数据进行训练而得到。基于此,将目标域服务平台中待评估的目标交易的交易数据输入特征生成模型110中,以得到符合源域服务平台的数据分布的模拟交易数据,再将模拟交易数据输入风险评估模型120中,可以得到针对目标交易的评估结果。
以下,对上述提及的特征生成模型110和风险评估模型120的训练方式进行介绍。需要说明的是,所述训练方式可以有多种。
具体地,在一种实施方式中,可以基于图2示出的连接框图,通过多次迭代,将最后一次迭代中得到的第一特征映射模型和风险评估模型,分别确定为最终使用的特征生成模型110和风险评估模型120。在一个实施例中,上述多次迭代对应的迭代次数可以由工作人员根据经验进行设定或调整。例如,迭代次数可以为10或20等。
下面介绍基于图2示出的连接框图进行多次迭代时,其中某次迭代对应的方法步骤。在一种实施方案中,可以通过图3中所示出方法的步骤实现,所述方法的执行主体可以为任何具有计算、处理能力的设备、装置、系统或平台等等。如图3所示,所述方法包括以下步骤:
步骤S302,将目标域服务平台中的第一原始交易数据输入第一特征映射模型中,得到模拟源域服务平台中交易数据的第一模拟交易数据;步骤S304,将源域服务平台中的第二原始交易数据输入第一特征映射模型中,得到第二修正交易数据;步骤S306,将第二修正交易数据作为正样本,以及将第一模拟交易数据作为负样本,训练第一判别模型;步骤S308,基于第一模拟交易数据、第二修正交易数据和第一判别模型,训练第一特征映射模型;步骤S310,利用第二修正交易数据和预先获取的第二原始交易数据的风险标签,训练分类模型;步骤S312,将第二原始交易数据输入第二特征映射模型中,得到第二模拟交易数据;步骤S314,将第一原始交易数据输入第二特征映射模型中,得到第一修正交易数据;步骤S316,将第一修正交易数据作为正样本,以及将第二模拟交易数据作为负样本,训练第二判别模型;步骤S318,基于第二模拟交易数据、第一修正交易数据和第二判别模型,训练第二特征映射模型;步骤S320,将第一模拟交易数据输入第二特征映射模型中,得到第一复原交易数据;步骤S322,确定第一原始交易数据和第一复原交易数据之间的相似度;步骤S324,基于相似度,至少训练第一特征映射模型。
在以上S302-步骤S324中,可以通过步骤S302-步骤S308,训练第一判别模型和第一特征映射模型。并且,引入Cycle GAN中的回路一致性(Cycle consistency)对第一特征映射模型进行进一步训练。具体地,包括通过步骤S310训练分类模型,还包括通过步骤S318-步骤S324,训练第二判别模型和第二特征映射模型,以进一步训练第一特征映射模型。以上步骤具体如下:
一方面,首先在步骤S302和步骤S304,将目标域服务平台中的第一原始交易数据和源域服务平台中的第二原始交易数据输入第一特征映射模型中,分别得到第一模拟交易数据和第二修正交易数据。在一个实施例中,上述交易数据可以为订单数据。在一个具体的实施例中,可以包括交易用户的身份信息、IP地址、交易金额、交易时间等。
在一个实施例中,上述第一原始交易数据和第二原始交易数据可以分别对应各自平台中的多笔交易,也就是对应多个训练样本,相应得到的第一模拟交易数据和第二修正交易数据也均对应多笔交易。需要说明的是,在多次迭代中的任意两次迭代中,所使用的第一原始交易数据通常不完全相同,同样的,所使用的第二原始交易数据也不完全相同。在一个实施例中,可以从目标域服务平台的历史交易数据记录中随机选取第一数量(如10)的交易所对应的交易数据输入第一特征映射模型中,得到对应第一数量的交易的第一模拟交易数据。同理,可以从源域服务平台的历史交易数据记录中随机选取第二数量(如500)的交易所对应的交易数据输入第一特征映射模型中,得到对应第二数量的交易的第二修正交易数据。
以上,可以得到第一模拟交易数据和第二修正交易数据。接着在步骤S306,将第二修正交易数据和第一模拟交易数据分别作为正样本和负样本,训练第一判别模型。再接着,在步骤S308,利用第二修正交易数据、第一模拟交易数据和第一判别模型,训练第一特征映射模型。
在一个实施例中,第一判别模型可以基于以下算法:决策树分类法、贝叶斯分类算法、支持向量机和神经网络算法。
在一个实施例中,第一特征映射模型可以基于深度神经网络DNN、长短期记忆网络LSTM等算法。
在一个实施例中,训练第一判别模型和第一特征映射模型时所使用的损失函数可以为GAN中损失函数。在一个具体的实施例中,训练第一判别模型D1和第一特征映射模型G1所使用的损失函数分别为下述公式(1)和公式(2):
上式(1)和(2)中,Xs和XT分别表示源域服务平台中的数据分布和目标域服务平台中的数据分布,xs和xt分别表示第二原始交易数据和第一原始交易数据,G1(xs)和G1(xt)分别表示表示第二修正交易数据和第一模拟交易数据。
在另一个实施例中,训练第一判别模型和第一特征映射模型时所使用的损失函数可以为WGAN中损失函数。需要说明的是,WGAN的损失函数采用的是Wasserstein距离,Wasserstein距离是平滑的,即使两个数据域交集很少,他依旧能够表示两者的分布差异多少,而不像GAN中的JS散度,当两个数据分布交集很少时就变为了一个常数,因此Wasserstein距离能够提供更加有意义的梯度,保证训练过程更加得稳定。并且,因为Wasserstein距离是平滑的,他的大小反映两个数据域的分布差异情况,因此还可以以此作为模型调优的参考,优化起来更加直观高效。
进一步地,在一个具体的实施例中,训练第一判别模型D1和第一特征映射模型G1所使用的损失函数分别为下述公式(3)和公式(4):
上式(3)和(4)中,Xs和XT分别表示源域服务平台中的数据分布和目标域服务平台中的数据分布,xs和xt分别表示第二原始交易数据和第一原始交易数据,G1(xs)和G1(xt)分别表示表示第二修正交易数据和第一模拟交易数据,D1∈1-Lipschitz表示第一判别模型D1这个函数满足1-Lipschitz连续。
另一方面,在一个具体的实施例中,训练第一特征映射模型所使用的损失函数还包括identity loss,具体地,其计算的是第二原始交易数据和第二修正交易数据之间的差距,训练时希望二者之间的差距越小越好。如此,基于上述损失函数(2)或(4),可以拉近第一模拟交易数据和第二修正交易数据的数据分布,基于identity loss可以拉近第二修正交易数据和第二原始交易数据的数据分布,进而拉近第一模拟交易数据和第二原始交易数据的数据分布。
以上,通过步骤S302-步骤S308,可以训练第一判别模型和第一特征映射模型。需要说明的是,在通过执行步骤S304获得第二修正交易数据之后,可以在步骤S310中,利用第二修正交易数据和预先获取的第二原始交易数据的风险标签,训练风险评估模型。
如前所述,源域服务平台中具有丰富的交易数据和对应的标签数据。在本步骤中,可以利用第二修正交易数据,和其所对应第二原始交易数据的风险标签,实现对风险评估模型的训练。在一个实施例中,标签数据可以指示订单是否违约,例如是否还款逾期等。相应地,风险评估模型用于预测目标交易是否会发生违约或者违约的概率。
在一个实施例中,风险评估模型所基于的算法可以为决策树分类法、贝叶斯分类算法、支持向量机或神经网络算法,等等。
在一个实施例中,训练风险评估模型所使用的损失函数可以为交叉熵损失函数、铰链损失函数、指数损失函数,等等。
如此,可以实现对风险评估模型的训练。
另一方面,首先在步骤S312和步骤S314,将目标域服务平台中的第一原始交易数据和源域服务平台中的第二原始交易数据输入第二特征映射模型中,分别得到第一修正交易数据和第二模拟交易数据。
在一个实施例中,上述第一原始交易数据和第二原始交易数据均可以分别对应各自服务平台中的多笔交易,相应得到的第一修正交易数据和第二模拟交易数据也均对应多笔交易。需要说明的是,在多次迭代中的任意两次迭代中,所使用的第一原始交易数据通常不完全相同,同样的,所使用的第二原始交易数据也不完全相同。在一个实施例中,可以基于迭代次数,预先对源域服务平台中的历史交易数据进行划分,在每次迭代过程中,选取不重复的一部分交易数据输入第二特征映射模型中,得到对应的第二模拟交易数据。同理,还可以预先对目标域服务平台中的历史交易数据进行划分,在每次迭代过程中,选取不重复的一部分交易数据输入第二特征映射模型中,得到对应的第一修正交易数据。
以上,可以得到第一修正交易数据和第二模拟交易数据。接着在步骤S316,将第一修正交易数据和第二模拟交易数据分别作为正样本和负样本,训练第二判别模型。再接着,在步骤S318,利用第一修正交易数据、第二模拟交易数据和第二判别模型,训练第二特征映射模型。
在一个实施例中,第二判别模型可以基于以下算法:决策树分类法、贝叶斯分类算法、支持向量机和神经网络算法。
在一个实施例中,第二特征映射模型可以基于深度神经网络DNN、长短期记忆网络LSTM等算法。
在一个实施例中,训练第二判别模型和第二特征映射模型时所使用的损失函数可以为GAN中损失函数。在一个具体的实施例中,训练第二判别模型D2和第二特征映射模型G2所使用的损失函数分别为下述公式(5)和公式(6):
上式(5)和(6)中,Xs和XT分别表示源域服务平台中的数据分布和目标域服务平台中的数据分布,xs和xt分别表示第二原始交易数据和第一原始交易数据,G2(xs)和G2(xt)分别表示表示第二模拟交易数据和第一修正交易数据。
在另一个实施例中,训练第二判别模型和第二特征映射模型时所使用的损失函数可以为WGAN中损失函数。在一个具体的实施例中,训练第二判别模型D2和第二特征映射模型G2所使用的损失函数分别为下述公式(7)和公式(8):
上式(7)和(8)中,Xs和XT分别表示源域服务平台中的数据分布和目标域服务平台中的数据分布,xs和xt分别表示第二原始交易数据和第一原始交易数据,G2(xs)和G2(xt)分别表示第二修正交易数据和第一模拟交易数据,D2∈1-Lipschitz表示第一判别模型D2这个函数满足1-Lipschitz连续。
另一方面,在一个具体的实施例中,训练第二特征映射模型所使用的损失函数还包括identity loss,具体地,其计算的是第一原始交易数据和第一修正交易数据之间的差距,训练时希望二者之间的差距越小越好。如此,基于上述损失函数(6)或(8),可以拉近第二模拟交易数据和第一修正交易数据的数据分布,基于identity loss可以拉近第一修正交易数据和第一原始交易数据的数据分布,进而拉近第二模拟交易数据和第一原始交易数据的数据分布。
以上,通过步骤S312-步骤S318,可以训练第二判别模型和第二特征映射模型。需要说明的是,在通过执行步骤S302获得第一模拟交易数据之后,可以在步骤S320中,将所述第一模拟交易数据输入第二特征映射模型中,得到第一复原交易数据。
在执行步骤S318训练第二特征映射模型,以及执行步骤S320得到第一复原交易数据之后,执行步骤S322,确定第一原始交易数据和第一复原交易数据之间的相似度,至少用于进一步训练第一特征映射模型。
在一个实施例中,计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的差值的绝对值,作为所述相似度。
在另一个实施例中,计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的平方差,作为所述相似度。
在以上计算出相似度之后,接着在步骤S324,基于所述相似度,至少训练第一特征映射模型。
在一个实施例中,可以基于反向传播法,利用相似度和步骤S318中训练得到的第二特征映射模型的模型参数,训练第一特征映射模型。需要说明的是,除了对第一特征映射模型进行训练之外,还可以利用相似度对第二特征映射模型进行进一步训练。
以上在步骤S312-步骤S324中,通过引入回路一致性,可以进一步训练第一特征映射模型,由此得到的第一特征映射模型可以使源域服务平台和目标域服务平台中的数据分布更为接近,并且,目标域服务平台中的数据分布变化较小,能够保留自身数据域的部分分布特点。
进一步地,可以基于图3示出的步骤S302-步骤S324进行多次迭代,并选取最后一次迭代得到的第一特征映射模型和风险评估模型进行后续使用,如此可以更好地完成风险评估任务,提高风险评估结果的准确性。
需要说明的是,在图3中,对于风险评估模型的训练,是利用当次迭代中尚未训练的第一特征映射模型得到的第二修正交易数据和第二原始交易数据的样本标签所进行的训练。而在当次训练中,第一特征映射模型会先后进行两次训练。由此,还可以在其他时机对风险评估模型进行训练。具体地,在一个实施例中,可以利用步骤S308中训练得到的第一特征映射模型,将第二原始交易数据转换为第三修正交易数据,再结合第二原始交易数据的样本标签,对风险评估模型进行训练,以提高训练所得到的风险评估模型的评估性能。在另一个实施例中,还可以利用步骤S324中进一步训练得到的第一特征映射模型,将第二原始交易数据转换为第四修正交易数据,再结合第二原始交易数据的样本标签,对风险评估模型进行训练,以更进一步提高训练所得到的风险评估模型的分类效果。
此外,上述风险评估模型、第一判别模型与第一生成模型的连接方式不一定是图2中的方式,例如,也可以直接利用源域服务平台中的原始交易数据训练风险评估模型和判别模型。
以上,对利用改进后的对抗迁移算法框架,实现目标交易的风险评估进行了说明。需要理解的是,其中改进后的对抗迁移算法框架,还可以应用于其他需要引入领域自适应的场景中。例如,源域中的数据包括大量猫的图片,目标域中的数据包括少量老虎的图片,源域和目标域的任务属于同一类别:判别图片中是否具有目标对象,区别在于,源域中需要判别的目标对象为猫,目标域中需要判断的目标对象为老虎。此时,可以利用特征生成器将目标域中的待识别图片转换为符合源域数据分布的模拟图片,再将模拟图片输入基于源域中的打标数据训练得到的分类器中,识别待识别图片中是否有老虎。
具体地,本说明书实施例中还披露一种针对目标样本的分类方法。图4示出根据一个实施例的用于对目标样本进行分类的方法流程图。所述方法的执行主体可以为任何具有计算、处理能力的装置或设备或系统等。如图4所示,所述方法包括以下步骤:
步骤S410,将目标域中的第一原始样本输入第一特征映射模型中,得到模拟源域中样本的第一模拟样本,所述目标域和所述源域具有相同的分类任务;步骤S420,将所述第一模拟样本输入第二特征映射模型中,得到模拟所述第一原始样本的第一复原样本;步骤S430,确定所述第一原始样本和所述第一复原样本之间的相似度;步骤S440,基于所述相似度,至少训练所述第一特征映射模型。
其中,所述第一特征映射模型用于将所述目标域中待分类的目标样本转换为模拟源域中样本的模拟样本,进而将所述模拟样本输入至少基于所述源域中的样本训练得到的分类模型中,对应得到针对所述目标样本的分类结果。
以上步骤具体如下:
在一个实施例中,步骤S430具体可以包括:计算所述第一原始样本所对应向量与所述第一复原样本所对应向量之间的差值的绝对值,作为所述相似度;或,计算所述第一原始样本所对应向量与所述第一复原样本所对应向量之间的平方差,作为所述相似度。
在一个实施例中,步骤S440还可以包括:基于所述相似度,训练所述第二特征映射模型。
在一个实施例中,所述第一原始样本对应一个交易或多个交易。
在一个实施例中,在步骤S440之前,所述方法还可以包括:将所述源域中的第二原始样本输入所述第一特征映射模型中,得到第二修正样本;将所述第二修正样本作为正样本,以及将所述第一模拟样本作为负样本,训练第一判别模型。
进一步地,在一个具体的实施例中,其中所述训练第一判别模型,包括:基于WGAN中对应于判别器的损失函数,训练所述第一判别模型。
另一方面,在一个具体的实施例中,在所述训练第一判别模型之后,以及,在步骤S440之前,所述方法还可以包括:基于所述第二修正样本、所述第一模拟样本和所述第一判别模型,训练所述第一特征映射模型。更具体地,可以基于WGAN中对应于生成器的损失函数,训练所述第一特征映射模型。
在一个实施例中,在步骤S440之前,所述方法还可以包括:将所述第一原始样本输入所述第二特征映射模型中,得到第二修正样本;将源域中的第二原始样本输入所述第二特征映射模型中,得到模拟第一中样本的第二模拟样本;将所述第二修正样本作为正样本,以及将所述第二模拟样本作为负样本,训练第二判别模型。
进一步地,在一个具体的实施例中,其中所述训练第二判别模型,包括:基于WGAN中对应于判别器的损失函数,训练所述第二判别模型。
另一方面,在一个具体的实施例中,在所述训练第二判别模型之后,以及,在步骤S440之前,所述方法还可以包括:基于所述第二修正样本、第二模拟样本和所述第二判别模型,训练所述第二特征映射模型。更具体地,可以基于WGAN中对应于生成器的损失函数,训练所述第二特征映射模型。
在一个实施例中,所述方法还可以包括:将源域中的第二原始样本输入所述第一特征映射模型中,得到第二修正样本;利用所述第二修正样本和预先获取的所述第二原始样本的样本标签,训练所述分类模型。
在本说明书实施例披露的用于对目标样本进行分类的方法中,通过引入CycleGAN中的回路一致性(Cycle consistency),可以使拟合后的目标域平台和源域的数据分布更为接近,且目标域的数据在调整后仍能具有自身数据域的某些分布特点。进一步地,还可以引入WGAN中的损失函数,实现模型的进一步优化。由此得到的用于转换待分类的目标样本的第一特征映射模型和分类模型,可以提高对目标样本进行分类的准确度。
根据另一方面的实施例,本说明书还披露一种评估装置。具体地,图5示出根据一个实施例的针对目标交易的风险评估装置结构图。如图5所示,所述装置500包括:
第一转换单元501,配置为将目标域服务平台中的第一原始交易数据输入第一特征映射模型中,得到模拟源域服务平台中交易数据的第一模拟交易数据。第二转换单元503,配置为将所述第一模拟交易数据输入第二特征映射模型中,得到模拟所述第一原始交易数据的第一复原交易数据;确定单元505,配置为确定所述第一原始交易数据和所述第一复原交易数据之间的相似度;第一训练单元507,配置为基于所述相似度,至少训练所述第一特征映射模型;其中,所述第一特征映射模型用于将目标域服务平台中待评估的目标交易的交易数据转换为模拟交易数据,进而将所述模拟交易数据输入至少基于所述第二服务平台中的交易数据训练得到的风险评估模型中,对应得到针对所述目标交易的风险评估结果。
在一个实施例中,所述确定单元505具体配置为:计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的差值的绝对值,作为所述相似度;或,计算所述第一原始交易数据所对应向量与所述第一复原交易数据所对应向量之间的平方差,作为所述相似度。
在一个实施例中,所述第一训练单元507还配置为:基于所述相似度,训练所述第二特征映射模型。
在一个实施例中,所述第一原始交易数据对应一个交易或多个交易。
在一个实施例中,所述装置500还包括:第三转换单元509,配置为将所述源域服务平台中的第二原始交易数据输入所述第一特征映射模型中,得到第二修正交易数据;第二训练单元511,配置为将所述第二修正交易数据作为正样本,以及将所述第一模拟交易数据作为负样本,训练第一判别模型。
进一步地,在一个具体的实施例中,所述第二训练单元511具体配置为:基于WGAN中对应于判别器的损失函数,训练所述第一判别模型。
在一个具体的实施例中,所述装置500还包括:第三训练单元513,配置为基于所述第二修正交易数据、所述第一模拟交易数据和所述第一判别模型,训练所述第一特征映射模型。
在一个更具体的实施例中,所述第三训练单元513具体配置为:基于WGAN中对应于生成器的损失函数,训练所述第一特征映射模型。
在一个实施例中,所述装置500还包括:第四转换单元515,配置为将所述第一原始交易数据输入所述第二特征映射模型中,得到第二修正交易数据;第五转换单元517,配置为将源域服务平台中的第二原始交易数据输入所述第二特征映射模型中,得到模拟第一服务平台中交易数据的第二模拟交易数据;第四训练单元519,配置为将所述第二修正交易数据作为正样本,以及将所述第二模拟交易数据作为负样本,训练第二判别模型。
在一个更具体的实施例中,所述第四训练单元519具体配置为:基于WGAN中对应于判别器的损失函数,训练所述第二判别模型。
另一方面,在一个具体的实施例中,所述装置500还包括:第五训练单元521,配置为基于所述第二修正交易数据、第二模拟交易数据和所述第二判别模型,训练所述第二特征映射模型。
在一个更具体的实施例中,所述第五训练单元521具体配置为:基于WGAN中对应于生成器的损失函数,训练所述第二特征映射模型。
在一个实施例中,所述装置500还包括:第六转换单元523,配置为将源域服务平台中的第二原始交易数据输入所述第一特征映射模型中,得到第二修正交易数据;第六训练单元525,配置为利用所述第二修正交易数据和预先获取的所述第二原始交易数据的风险标签,训练所述风险评估模型。
根据又一方面的实施例,本说明书还披露一种分类装置。具体地,图6示出根据一个实施例的用于对目标样本进行分类的装置结构图。如图6所示,所述装置600包括:
第一转换单元601,配置为将目标域中的第一原始样本输入第一特征映射模型中,得到模拟源域中样本的第一模拟样本,所述目标域和所述源域具有相同的分类任务;第二转换单元603,配置为将所述第一模拟样本输入第二特征映射模型中,得到模拟所述第一原始样本的第一复原样本;确定单元605,配置为确定所述第一原始样本和所述第一复原样本之间的相似度;第一训练单元607,配置为基于所述相似度,至少训练所述第一特征映射模型;其中,所述第一特征映射模型用于将所述目标域中待分类的目标样本转换为模拟源域中样本的模拟样本,进而将所述模拟样本输入至少基于所述源域中的样本训练得到的分类模型中,对应得到针对所述目标样本的分类结果。
在一个实施例中,所述确定单元605具体配置为:计算所述第一原始样本所对应向量与所述第一复原样本所对应向量之间的差值的绝对值,作为所述相似度;或,计算所述第一原始样本所对应向量与所述第一复原样本所对应向量之间的平方差,作为所述相似度。
在一个实施例中,所述第一训练单元607还配置为:基于所述相似度,训练所述第二特征映射模型。
在一个实施例中,所述第一原始样本对应一个交易或多个交易。
在一个实施例中,所述装置600还包括:第三转换单元609,配置为将所述源域中的第二原始样本输入所述第一特征映射模型中,得到第二修正样本;第二训练单元611,配置为将所述第二修正样本作为正样本,以及将所述第一模拟样本作为负样本,训练第一判别模型。
进一步地,在一个具体的实施例中,所述第二训练单元611具体配置为:基于WGAN中对应于判别器的损失函数,训练所述第一判别模型。
在一个具体的实施例中,所述装置600还包括:第三训练单元613,配置为基于所述第二修正样本、所述第一模拟样本和所述第一判别模型,训练所述第一特征映射模型。
在一个更具体的实施例中,所述第三训练单元613具体配置为:基于WGAN中对应于生成器的损失函数,训练所述第一特征映射模型。
在一个实施例中,所述装置600还包括:第四转换单元615,配置为将所述第一原始样本输入所述第二特征映射模型中,得到第二修正样本;第五转换单元617,配置为将源域中的第二原始样本输入所述第二特征映射模型中,得到模拟第一中样本的第二模拟样本;第四训练单元619,配置为将所述第二修正样本作为正样本,以及将所述第二模拟样本作为负样本,训练第二判别模型。
在一个更具体的实施例中,所述第四训练单元619具体配置为:基于WGAN中对应于判别器的损失函数,训练所述第二判别模型。
另一方面,在一个具体的实施例中,所述装置600还包括:第五训练单元621,配置为基于所述第二修正样本、第二模拟样本和所述第二判别模型,训练所述第二特征映射模型。
在一个更具体的实施例中,所述第五训练单元621具体配置为:基于WGAN中对应于生成器的损失函数,训练所述第二特征映射模型。
在一个实施例中,所述装置600还包括:第六转换单元623,配置为将源域中的第二原始样本输入所述第一特征映射模型中,得到第二修正样本;第六训练单元625,配置为利用所述第二修正样本和预先获取的所述第二原始样本的样本标签,训练所述分类模型。
如上,根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图4所描述的方法。
根据又一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图4所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。