具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面参考附图描述根据本申请实施例的欺诈事件的识别方法和装置。
图1为根据本申请一个实施例的欺诈事件的识别方法的流程图。
如图1所示,根据本申请实施例的欺诈事件的识别方法,包括以下步骤。
S101,根据预设特征集合判断待识别欺诈事件是否属于预设类型。
在本申请的实施例中,预设类型可为多种,例如,可包括商户欺诈事件、钓鱼欺诈事件和木马欺诈事件等。
预设特征集合可包括与不同的预设类型分别对应的特征子集。不同于具有复杂性和多变性的个人欺诈事件,预设类型的欺诈事件具有比较明显的特征,例如,钓鱼欺诈方式一般包含伪装的链接以使用户点击,木马欺诈方式一般有接收过可疑文件、压缩包、视频、安装.exe文件等行为,商户欺诈场景中操作对象一般是商品卖家等。因此可预先针对具有明显特征的不同类型的欺诈事件分别建立相应的特征子集,得到预设特征集合。
具体地,在本申请的一个实施例中,预设特征集合可包括第一特征子集、第二特征子集和第三特征子集。根据预设特征集合判断待识别欺诈事件是否属于预设类型具体包括:
判断待识别欺诈事件是否具有第一特征子集中的特征;
如果具有第一特征子集中的特征,则判断待识别欺诈事件为第一预设类型;
如果不具有第一特征子集中的特征,则进一步判断待识别欺诈事件是否具有第二特征子集中的特征;
如果具有第二特征子集中的特征,则判断待识别欺诈事件为第二预设类型;
如果不具有第二特征子集中的特征,则进一步判断待识别欺诈事件是否具有第三特征子集中的特征;
如果具有第三特征子集中的特征,则判断待识别欺诈事件为第三预设类型。
在本申请的一个实施例中,第一特征子集可包括链接特征,第一预设类型为钓鱼欺诈事件;第二特征子集可包括木马特征(即接收过可疑文件、压缩包、视频、安装.exe文件等行为),第二预设类型为木马欺诈事件;第三特征子集包括预设的操作用户标识特征(例如预设的操作用户标识为商品卖家标识等),第三预设类型为商户欺诈事件。
图2为根据本申请一个实施例的根据预设特征集合判断待识别欺诈事件是否属于预设类型的示意图,如图2所示,对于待识别欺诈事件,可经过图2所示的判断过程,如果有点击链接的特征,则可判断待识别欺诈事件为钓鱼欺诈事件,否则排除是钓鱼欺诈事件的可能,并进一步判断是否有木马特征(即接收过可疑文件、压缩包、视频以及图2中所示的安装.exe文件等行为)。如果有木马特征,则判断待识别欺诈事件为木马欺诈事件,否则排除是木马欺诈事件,并进一步判断操作用户的标识是否商品卖家标识。如果是商品卖家标识,则判断待识别欺诈事件为商户欺诈,否则进行个人欺诈事件判断。由此可对钓鱼欺诈事件、木马欺诈事件和商户欺诈事件进行过滤或识别,并在判断属于预设类型时,输出识别出所属的相应的类型,如果不属于预设类型,则可进一步通过步骤S102和S103进行个人欺诈事件的判定和识别。
应当理解,在此仅以商户欺诈事件、钓鱼欺诈事件和木马欺诈事件三种具有比较明显的特征的欺诈事件类型进行示例性说明。在实际应用中也可根据其他具有明显特征的欺诈事件类型预先建立特征子集,以用于对该类型的欺诈事件进行识别。
S102,如果待识别欺诈事件不属于预设类型,则提取待识别欺诈事件的特征向量。
在本申请的一个实施例中,经过对预设类型的欺诈事件的识别和过滤之后,如果判断待识别欺诈事件不属于预设类型,则需要进一步判断待识别欺诈事件是否为个人欺诈事件。
首先需要提取待识别欺诈事件的特征向量。其中,特征向量是由事件的特征值组成的向量。在本申请的一个实施例中,提取待识别欺诈事件的特征向量具体包括:根据个人欺诈事件相关的特征变量提取待识别欺诈事件的特征描述;对待识别欺诈事件的特征描述进行数值化处理,以得到待识别欺诈事件的特征向量。
由于需要判断待识别欺诈事件是否为个人欺诈事件,因此,需要根据个人欺诈事件相关的特征变量提取待识别欺诈事件的特征向量。
如图3所示,个人欺诈事件的特征变量可分为三大类标签:账户信息,商品信息和资金流转信息。其中,每类标签包含一个或多个特征变量。账户信息标签主要包括账户注册情况,黑环境情况、批量注册账号情况以及买卖账号情况等;商品信息标签主要包括虚拟商品情况和高危商品情况等;资金流转信息标签主要包括收款前的异动、当笔交易状况以及收款后的转账行为等。
因此,可根据上述三大类标签中的9个特征变量提取待识别欺诈事件的特征描述,然后对特征描述进行数值化处理,以得到待识别欺诈事件的特征向量。举例来说,如果待欺诈事件的特征描述为“虚拟商品”,则对应的特征值为1,如果特征描述为“非虚拟商品”,则对应的特征值为0。如果待欺诈事件的特征描述为“收款后有转账行为”,则对应的特征值为1,如果特征描述为“收款后无转账行为”,则对应的特征值为0。以此类推将提取到的每个特征描述都数值化得到相应的特征值,从而可得到9维的特征向量。
S103,根据特征向量对待识别欺诈事件进行判别分析,以判断待识别欺诈事件是否为个人欺诈事件。
在本申请的一个实施例中,根据特征向量对待识别欺诈事件进行判别分析具体包括:计算预先训练的Fisher判别向量与特征向量的距离;如果距离大于预设距离,则判断待识别欺诈事件为个人欺诈事件;如果距离小于或等于预设距离,则判断待识别欺诈事件为非个人欺诈事件。
其中,Fisher判别向量为预先根据个人欺诈建模样本训练得到的。具体地,在本申请的一个实施例中,还可包括:根据个人欺诈建模对象训练Fisher判别向量,其中,为个人欺诈建模样本的特征向量矩阵,s为个人欺诈建模样本的样本分类数,m为每个样本的特征变量的数量,n为个人欺诈建模样本的数量,s、m、n均为正整数。
其中,个人欺诈建模样本可包括多个不同分类,例如,可分为个人欺诈样本和非个人欺诈样本两种,则s=2。个人欺诈建模对象为根据个人欺诈建模样本中每个样本的特征向量组成的特征向量矩阵。m为每个样本的特征变量的数量,样本的特征向量可以根据个人欺诈事件的特征变量为标准进行提取,以图3所示的个人欺诈事件第的特征变量为例,m可为9,即对于每个样本的特征向量的提取图3所示的9种特征变量的特征值,以得到每个样本的9维特征向量。
更具体地,在本申请的一个实施例中,如图4所示,根据个人欺诈建模对象训练Fisher判别向量可具体包括以下步骤。
S1,计算个人欺诈建模对象中的每个样本分类的类内离散度矩阵Sw,并计算个人欺诈建模对象中各个样本分类的类间离散度矩阵Sb。
具体地,Sj为第j个样本分类的类内离散度矩阵。
其中,Xj为第j个样本分类的特征向量矩阵,xi为Xj中第i个样本的特征向量,为第j个样本分类的平均特征向量。
x为个人欺诈建模对象中所有样本的平均特征向量。
S3,对Fisher判别分析的目标函数进行求解以获得Fisher判别向量v。
也就是说,求解f最大时,向量v的取值即为Fisher判别向量。
由此,可计算Fisher判别向量与待识别欺诈事件的特征向量的距离,如果该距离大于预设距离,则待识别欺诈事件为个人欺诈事件;如果该距离小于或等于预设距离,则待识别欺诈事件为非个人欺诈事件。
本申请实施例的欺诈事件的识别方法,可根据预设特征集合对属于预设类型(如钓鱼欺诈事件、木马欺诈事件和商户欺诈事件等)的待识别欺诈事件进行识别和过滤,并将过滤后未识别出的待识别欺诈事件进一步通过提取其特征向量,并根据该特征向量判断待识别欺诈事件是否为个人欺诈事件,从而简化了欺诈事件的识别过程,使欺诈事件的识别更加智能、有效,并且提高了欺诈事件的识别效率。
为了实现上述实施例,本申请还提出一种欺诈事件的识别装置。
图5为根据本申请一个实施例的欺诈事件的识别装置的结构示意图。
如图5所示,根据本申请实施例的欺诈事件的识别装置,包括:判断模块10、提取模块20和分析模块30。
具体地,判断模块10用于根据预设特征集合判断待识别欺诈事件是否属于预设类型。
在本申请的实施例中,预设类型可为多种,例如,可包括商户欺诈事件、钓鱼欺诈事件和木马欺诈事件等。
预设特征集合可包括与不同的预设类型分别对应的特征子集。不同于具有复杂性和多变性的个人欺诈事件,预设类型的欺诈事件具有比较明显的特征,例如,钓鱼欺诈方式一般包含伪装的链接以使用户点击,木马欺诈方式一般有接收过可疑文件、压缩包、视频以及图2中所示的安装.exe文件等行为,商户欺诈场景中操作对象一般是商品卖家等。因此可预先针对具有明显特征的不同类型的欺诈事件分别建立相应的特征子集,得到预设特征集合。
更具体地,在本申请的一个实施例中,预设特征集合包括第一特征子集、第二特征子集和第三特征子集,判断模块10具体用于:
判断待识别欺诈事件是否具有第一特征子集中的特征;
如果具有第一特征子集中的特征,则判断待识别欺诈事件为第一预设类型;
如果不具有第一特征子集中的特征,则进一步判断待识别欺诈事件是否具有第二特征子集中的特征;
如果具有第二特征子集中的特征,则判断待识别欺诈事件为第二预设类型;
如果不具有第二特征子集中的特征,则进一步判断待识别欺诈事件是否具有第三特征子集中的特征;
如果具有第三特征子集中的特征,则判断待识别欺诈事件为第三预设类型。
在本申请的一个实施例中,第一特征子集可包括链接特征,第一预设类型为钓鱼欺诈事件;第二特征子集可包括木马特征(即接收过可疑文件、压缩包、视频、安装.exe文件等行为),第二预设类型为木马欺诈事件;第三特征子集包括预设的操作用户标识特征(例如预设的操作用户标识为商品卖家标识等),第三预设类型为商户欺诈事件。
图2为根据本申请一个实施例的根据预设特征集合判断待识别欺诈事件是否属于预设类型的示意图,如图2所示,对于待识别欺诈事件,可经过图2所示的判断过程,如果有点击链接的特征,则可判断待识别欺诈事件为钓鱼欺诈事件,否则排除是钓鱼欺诈事件的可能,并进一步判断是否有木马特征(即接收过可疑文件、压缩包、视频、安装.exe文件等行为)。如果有木马特征,则判断待识别欺诈事件为木马欺诈事件,否则排除是木马欺诈事件,并进一步判断操作用户的标识是否商品卖家标识。如果是商品卖家标识,则判断待识别欺诈事件为商户欺诈,否则进行个人欺诈事件判断。由此可对钓鱼欺诈事件、木马欺诈事件和商户欺诈事件进行过滤或识别,并在判断属于预设类型时,输出识别出所属的相应的类型,如果不属于预设类型,则可进一步通过提取模块20和分析模块30进行个人欺诈事件的判定和识别。
应当理解,在此仅以商户欺诈事件、钓鱼欺诈事件和木马欺诈事件三种具有比较明显的特征的欺诈事件类型进行示例性说明。在实际应用中也可根据其他具有明显特征的欺诈事件类型预先建立特征子集,以用于对该类型的欺诈事件进行识别。
提取模块20用于当判断模块判断待识别欺诈事件不属于预设类型时,提取待识别欺诈事件的特征向量。
在本申请的一个实施例中,经过对预设类型的欺诈事件的识别和过滤之后,如果判断待识别欺诈事件不属于预设类型,则需要进一步判断待识别欺诈事件是否为个人欺诈事件。
首先需要通过提取模块20提取待识别欺诈事件的特征向量。其中,特征向量是由事件的特征值组成的向量。在本申请的一个实施例中,提取模块20具体用于:根据个人欺诈事件相关的特征变量提取待识别欺诈事件的特征描述;对待识别欺诈事件的特征描述进行数值化处理,以得到待识别欺诈事件的特征向量。
由于需要判断待识别欺诈事件是否为个人欺诈事件,因此,提取模块20需要根据个人欺诈事件相关的特征变量提取待识别欺诈事件的特征向量。
如图3所示,个人欺诈事件的特征变量可分为三大类标签:账户信息,商品信息和资金流转信息。其中,每类标签包含一个或多个特征变量。账户信息标签主要包括账户注册情况,黑环境情况、批量注册账号情况以及买卖账号情况等;商品信息标签主要包括虚拟商品情况和高危商品情况等;资金流转信息标签主要包括收款前的异动、当笔交易状况以及收款后的转账行为等。
因此,提取模块20可根据上述三大类标签中的9个特征变量提取待识别欺诈事件的特征描述,然后对特征描述进行数值化处理,以得到待识别欺诈事件的特征向量。举例来说,如果待欺诈事件的特征描述为“虚拟商品”,则对应的特征值为1,如果特征描述为“非虚拟商品”,则对应的特征值为0。如果待欺诈事件的特征描述为“收款后有转账行为”,则对应的特征值为1,如果特征描述为“收款后无转账行为”,则对应的特征值为0。以此类推将提取到的每个特征描述都数值化得到相应的特征值,从而可得到9维的特征向量。
分析模块30用于根据特征向量对待识别欺诈事件进行判别分析,以判断待识别欺诈事件是否为个人欺诈事件。
在本申请的一个实施例中,分析模块30具体用于:计算预先训练的Fisher判别向量与特征向量的距离;如果距离大于预设距离,则判断待识别欺诈事件为个人欺诈事件;如果距离小于或等于预设距离,则判断待识别欺诈事件为非个人欺诈事件。
其中,Fisher判别向量为预先根据个人欺诈建模样本训练得到的。具体地,如图6所示,在本申请的一个实施例的欺诈事件的识别装置还可包括训练模块40。
更具体地,训练模块40用于根据个人欺诈建模对象训练Fisher判别向量,其中,为个人欺诈建模样本的特征向量矩阵,s为个人欺诈建模样本的样本分类数,m为每个样本的特征变量的数量,n为个人欺诈建模样本的数量,s、m、n均为正整数。
其中,个人欺诈建模样本可包括多个不同分类,例如,可分为个人欺诈样本和非个人欺诈样本两种,则s=2。个人欺诈建模对象为根据个人欺诈建模样本中每个样本的特征向量组成的特征向量矩阵。m为每个样本的特征变量的数量,样本的特征向量可以根据个人欺诈事件的特征变量为标准进行提取,以图3所示的个人欺诈事件第的特征变量为例,m可为9,即对于每个样本的特征向量的提取图3所示的9种特征变量的特征值,以得到每个样本的9维特征向量。
更具体地,在本申请的一个实施例中,如图7所示,训练模块40可具体包括计算单元41、构建单元42和获得单元43。
其中,计算单元41用于计算个人欺诈建模对象中的每个样本分类的类内离散度矩阵Sw,并计算个人欺诈建模对象中各个样本分类的类间离散度矩阵Sb。
其中,Sj为第j个样本分类的类内离散度矩阵。
Xj为第j个样本分类的特征向量矩阵,xi为Xj中第i个样本的特征向量,为第j个样本分类的平均特征向量。
x为个人欺诈建模对象中所有样本的平均特征向量。
获得单元43用于对Fisher判别分析的目标函数进行求解以获得Fisher判别向量v。
也就是说,求解f最大时,向量v的取值即为Fisher判别向量。
由此,可计算Fisher判别向量与待识别欺诈事件的特征向量的距离,如果该距离大于预设距离,则待识别欺诈事件为个人欺诈事件;如果该距离小于或等于预设距离,则待识别欺诈事件为非个人欺诈事件。
本申请实施例的欺诈事件的识别装置,可根据预设特征集合对属于预设类型(如钓鱼欺诈事件、木马欺诈事件和商户欺诈事件等)的待识别欺诈事件进行识别和过滤,并将过滤后未识别出的待识别欺诈事件进一步通过提取其特征向量,并根据该特征向量判断待识别欺诈事件是否为个人欺诈事件,从而简化了欺诈事件的识别过程,使欺诈事件的识别更加智能、有效,并且提高了欺诈事件的识别效率。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同限定。