具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以下请求参考图1所示本说明书实施例中提供的用于识别欺诈案件的策略生成的系统架构图。图1所示该系统可以包括服务端11、数据库12。
所述数据库12可以用于存储历史各种第一欺诈识别策略、第二欺诈识别策略。
其中,第一欺诈识别策略可以是指那些不符合预期的策略。通常可以是指实际应用于欺诈案件识别时,经常识别错误的策略。例如识别准确率小于阈值的策略。
第二欺诈识别策略可以是指那些符合预期的策略。通常可以是指实际应用于欺诈案件识别时,识别准确的策略。例如识别准确率达到阈值的策略。
所述服务端11可以是指用于识别欺诈案件的策略生成的服务器、服务器集群或者基于服务器集群构建的云平台。
具体地,所述服务端11可以包括判别服务器111以及训练服务器112。
所述训练服务器112可以用于训练对抗生成网络(Generative AdversarialNetworks,GAN)模型,并最终得到所述GAN模型中的判别模型113;
所述判别服务器111,可以根据所述判别模型113识别出符合预期的用于欺诈案件的策略。
在一种实现方式中,所述训练服务器112可以是独立于所述服务端11的(图中未示出);这种情况下,所述训练服务器112在训练得到判别模型113后,可以将判别模型113提供给判别服务器111;或者,可以对外提供识别的接口,这样判别服务器111就可以通过该接口调用判别模型113进行识别。
在实际使用时,数据库12可以响应与服务端11的数据获取请求,以提供给所述服务端11用于训练的第一欺诈识别策略和第二欺诈识别策略。
服务端11在接收到第一欺诈识别策略和第二欺诈识别策略后,可以通过训练服务器112进行预设次数的迭代处理,将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入对抗生成网络中的生成模型;获取所述生成模型输出的待识别样本,并将所述待识别样本输入到所述对抗生成网络中的判别模型113;迭代结束后,将所述判别模型113输出的所有符合预期的样本确定为用于欺诈案件的策略。
为了解决上述问题,本说明书提供了一种用于识别欺诈案件的策略生成方法,以下可以参考图2所示的例子介绍,该方法可以应用于服务端,所述方法可以包括以下步骤:
步骤210:获取目标模型相关的不符合预期的第一欺诈识别策略和符合预期的第二欺诈识别策略;利用以下步骤进行预设次数的迭代处理:
步骤220:将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入对抗生成网络中的生成模型;
步骤230:获取所述生成模型输出的待识别样本,并将所述待识别样本输入到所述对抗生成网络中的判别模型;
步骤240:迭代结束后,将所述判别模型输出的所有符合预期的样本确定为用于欺诈案件的策略。
本说明书实施例中,所述的对抗生成网络(Generative Adversarial Networks,GAN)属于深度学习(Deep Learning)领域。
本说明书中,首先需要训练对抗生成网络。
如图3所示,一般对抗生成网络可以包括2部分,即生成模型G
(Generative Network)以及判别模型D(Discriminator)。
第一阶段,将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入到生成模型G,所述生成模型G可以根据该真样本、假样本生成待识别样本;所述待识别样本一般是非常逼真的假样本。
所述生成模型G可以理解为一个样本生成器,接收数据输入然后输出新的数据,该过程类似一个函数,一个输入值映射一个输出值。
第二阶段,将待识别样本输入到判别模型D,上述判别模型D可以对输入的样本进行判别,判断每一个样本是真还是假;
所述判别模型D可以理解为一个二分类器,接收数据输入然后输出一个分类值。以0-1分类器为例,如果输出的分类值大于0.5,可以认为输入的数据为真;如果输出的分类值小于0.5,可以认为输入的数据为假。
对抗生成网络训练过程可以理解为是一种博弈过程,具体可以是指生成模型G和判别模型D之间的博弈;
其中,生成模型G的目标是生成非常逼真的待识别样本,从而无法被判别模型D识别出;
而判别模型D的目标是可以全部正确的识别出样本是真还是假。
博弈结果的控制可以是预先设置的。通常情况下,博弈结果都是生成模型G获胜,因此训练结果是生成模型G生成的假样本无法被判别模型D识别出。
值得一提的是,在本实施例中,需要使用到的是判别模型D;因此,可以设置博弈结果是判别模型D获胜,即训练目标为:无论生成模型G生成的假样本多么逼真,判别模型D始终可以识别出哪些是假样本,哪些是真样本。
具体地,如图4所示的所述判别模型,可以通过如下方式训练得到:
A1:初始化对抗网络;所述对抗网络包括生成模型和判别模型。
上述公式可以看作一个最大最小优化算法,拆分后可以对应如下俩个优化公式:
优化D:
优化G:
其中,G表示生成模型,D表示判别模型。
需要说明的是,所述判别模型可以采用深度学习网络模型或者机器学习模型。
在所述判别模型采用深度学习网络模型的情况下,具体可以包括卷积神经网络(Convolutional Neural Network,CNN)模型、循环神经网络(Recurrent neural Network、循环神经网络)模型或长短期记忆网络(Long Short-Term Memory,LSTM)模型。
在所述判别模型采用机器学习模型的情况下,具体可以包括支持向量机SVM、决策树C4.5或随机森林Randomforest。
A2:获取真样本集;所述真实样本集包括符合预期的第二欺诈识别策略。
A3:将所述真样本集输入所述生成模型,得到所述生成模型输出的假样本集;所述假样本集可以包括不符合预期的第一欺诈识别策略。
A4:将所述真样本集和假样本集输入到所述判别模型,得到所述判别模型输出的全部样本的判别结果。
A5:判断所述全部样本的判别结果是否都正确。
A6:在所述全部样本的判别结果都正确的情况下,将所述判别模型确定为最终的判别模型。
如图4所示,在所述全部样本的判别结果不都正确的情况下,重复执行步骤A3。
通过上述步骤,在所述全部样本的判别结果都正确的情况下,将所述判别模型确定为最终的判别模型,最终训练得出的判别模型可以有效识别待识别样本中哪些是符合预期的可以用于欺诈案件审理的策略。
本实施例,提供了一种用于识别欺诈案件的策略生成方案,获取目标模型相关的不符合预期的第一欺诈识别策略和符合预期的第二欺诈识别策略;利用以下步骤进行预设次数的迭代处理:将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入对抗生成网络中的生成模型;获取所述生成模型输出的待识别样本,并将所述待识别样本输入到所述对抗生成网络中的判别模型;迭代结束后,将所述判别模型输出的所有符合预期的样本确定为用于欺诈案件的策略。如此,通过对抗生成网络自动化对欺诈识别策略进行增益评估,以确定符合预期的可以用于识别欺诈案件的策略。
在一实施例中,在图2所示方法实施例基础上,还可以包括:
计算所述用于识别欺诈案件的策略的准确率和/或覆盖率;
将准确率和/或覆盖率均符合预设要求的策略确定为可使用策略。
该实施例中,在判别模型输出的所有符合预期的样本确定为用于欺诈案件的策略之后,还可以进一步判断所确定的策略是否是可使用的策略。
通常,评估策略是否可用,可以通过策略的准确率和/或覆盖率这两个指标维度进行评估。
在一实施例中,所述计算所述用于识别欺诈案件的策略的准确率,具体包括:
获取目标策略对样本进行识别的识别结果;
将识别结果正确的数量,除以样本总数量,以得到准确率。
所述识别结果正确可以是指,识别结果与样本本身的结果一致的,例如识别结果为欺诈案件,而样本本身的输出也为欺诈案件,则说明策略对样本的识别结果正确。
反之,识别结果为欺诈案件,而样本本身的输出也为非欺诈案件,则说明策略对样本的识别结果不正确。
一般的,识别结果与样本自身的结果之间存在4种情况:
1、识别结果正确,并且识别结果为是;即识别结果为欺诈案件,样本也为欺诈案件;
2、识别结果正确,并且识别结果为否;即识别结果为非欺诈案件,样本也为非欺诈案件;
3、识别结果不正确,并且识别结果为是;即识别结果为欺诈案件,样本为非欺诈案件;
4、识别结果不正确,并且识别结果为非;即识别结果为非欺诈案件,样本为欺诈案件。
举例说明,假设目标策略:
识别结果正确,并且识别结果为是的数量为a;
识别结果正确,并且识别结果为否的数量为b
识别结果不正确,并且识别结果为是的数量为c;
识别结果不正确,并且识别结果为非的数量为d;
那么,目标策略的准确率=(a+b)/(a+b+c+d)。
在一实施例中,所述计算所述用于识别欺诈案件的策略的覆盖率,具体包括:
获取目标策略对样本进行识别的识别结果;
将识别结果正确并且识别结果为欺诈案件的数量,除以识别结果正确的数量,以得到覆盖率。
依然假设目标策略:
识别结果正确,并且识别结果为是的数量为a;
识别结果正确,并且识别结果为否的数量为b
识别结果不正确,并且识别结果为是的数量为c;
识别结果不正确,并且识别结果为非的数量为d;
那么,目标策略的覆盖率=a/(a+b)。
综上所述,通过计算策略的准确率和/或覆盖率,将准确率和/或覆盖率符合预设要求的策略确定为可使用策略。
与前述用于识别欺诈案件的策略生成方法实施例相对应,本说明书还提供了用于识别欺诈案件的策略生成装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书用于识别欺诈案件的策略生成装置所在设备的一种硬件结构图,除了图5所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据用于识别欺诈案件的策略生成实际功能,还可以包括其他硬件,对此不再赘述。
请参见图6,为本说明书一实施例提供的用于识别欺诈案件的策略生成装置的模块图,所述装置对应了图2所示实施例,所述装置包括:
获取单元510,获取目标模型相关的不符合预期的第一欺诈识别策略和符合预期的第二欺诈识别策略;利用以下单元进行预设次数的迭代处理:
输入单元520,将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入对抗生成网络中的生成模型;
判别单元530,获取所述生成模型输出的待识别样本,并将所述待识别样本输入到所述对抗生成网络中的判别模型;
生成单元540,迭代结束后,将所述判别模型输出的所有符合预期的样本确定为用于欺诈案件的策略。
可选的,所述装置还包括:
计算子单元,计算所述用于识别欺诈案件的策略的准确率和/或覆盖率;
评估子单元,将准确率和/或覆盖率均符合预设要求的策略确定为可使用策略。
可选的,所述计算子单元中,计算用于识别欺诈案件的策略的准确率,具体包括:
获取子单元,获取目标策略对样本进行识别的识别结果;
准确率计算子单元,将识别结果正确的数量,除以样本总数量,以得到准确率。
可选的,所述计算子单元中,计算所述用于识别欺诈案件的策略的覆盖率,具体包括:
获取子单元,获取目标策略对样本进行识别的识别结果;
覆盖率计算子单元,将识别结果正确并且识别结果为欺诈案件的数量,除以识别结果正确的数量,以得到覆盖率。
可选的,所述判别模型包括:
深度学习网络模型或者机器学习模型。
可选的,所述深度学习网络模型包括:
卷积神经网络模型、循环神经网络模型或长短期记忆网络模型。
可选的,所述机器学习模型包括:
支持向量机、决策树或随机森林。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图6描述了用于识别欺诈案件的策略生成装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标模型相关的不符合预期的第一欺诈识别策略和符合预期的第二欺诈识别策略;利用以下步骤进行预设次数的迭代处理:
将所述第一欺诈识别策略作为假样本、第二欺诈识别策略作为真样本输入对抗生成网络中的生成模型;
获取所述生成模型输出的待识别样本,并将所述待识别样本输入到所述对抗生成网络中的判别模型;
迭代结束后,将所述判别模型输出的所有符合预期的样本确定为用于欺诈案件的策略。
可选的,还包括:
计算所述用于识别欺诈案件的策略的准确率和/或覆盖率;
将准确率和/或覆盖率均符合预设要求的策略确定为可使用策略。
可选的,所述计算所述用于识别欺诈案件的策略的准确率,具体包括:
获取目标策略对样本进行识别的识别结果;
将识别结果正确的数量,除以样本总数量,以得到准确率。
可选的,所述计算所述用于识别欺诈案件的策略的覆盖率,具体包括:
获取目标策略对样本进行识别的识别结果;
将识别结果正确并且识别结果为欺诈案件的数量,除以识别结果正确的数量,以得到覆盖率。
可选的,所述判别模型包括:
深度学习网络模型或者机器学习模型。
可选的,所述深度学习网络模型包括:
卷积神经网络模型、循环神经网络模型或长短期记忆网络模型。
可选的,所述机器学习模型包括:
支持向量机、决策树或随机森林。
在上述电子设备的实施例中,应理解,该处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。