CN106372237A

CN106372237A - 欺诈邮件识别方法及装置

Info

Publication number: CN106372237A
Application number: CN201610819457.4A
Authority: CN
Inventors: 陈玉焓
Original assignee: Sina (shanghai) Enterprise Management Co Ltd
Current assignee: Sina (shanghai) Enterprise Management Co Ltd
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2017-02-01

Abstract

本发明实施例提供一种欺诈邮件识别方法及装置，该方法包括：获取待识别邮件；根据预先建立的可疑关键词库和可疑相关词库，提取所述待识别邮件中的特征词；根据预先建立的邮件概率图模型，确定所述特征词的最大状态概率；所述邮件概率图模型为表征特征词表现为状态链上的状态的概率的模型；根据所述特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益；根据所述信息增益确定邮件分类决策值，根据所述邮件分类决策值对待识别邮件进行分类，根据分类结果确定待识别邮件是否为欺诈邮件。能够对欺诈邮件进行精确定位，从而更准确的识别出欺诈邮件，提高邮件系统安全性。

Description

欺诈邮件识别方法及装置

技术领域

本发明涉及电子邮件安全技术领域，尤指一种欺诈邮件识别方法及装置。

背景技术

现有的邮件系统存在大量的垃圾邮件，其中，欺诈邮件危害用户的账户和个人信息安全，尤其需要邮件系统研发人员重视，2014年注册舞弊审核师协会(Association OfCertified Fraud Examiners，ACFE)的一项调查表明平均每年全球由于欺诈造成的财产损失达37亿元。其中，80％的欺诈事件来自于文本欺诈，邮件欺诈属于文本欺诈的重要一部分。欺诈邮件有其本身的文本特点，如警告类词使用频率，恶意链接及软件的加载等特点。

目前其他行业，例如保险行业等虽然有一些反欺诈的文本分析算法，但其对欺诈邮件的定位不够精确，目前也没有专门针对通知性邮件的反欺诈算法。欺诈邮件用词方面一般模仿正常的通知性邮件，如使用“帐户”、“账户”、“暂停”、“升级”、“更新”、“尊敬的用户”等字眼。单用词袋模型的文本分析不足以建立欺诈邮件与正常通知性邮件的区别。因此现有的发欺诈的文本分析算法并不能精确的定位欺诈邮件，也不能准确的识别出欺诈邮件，网络邮件系统的安全性不能得到有效地保证。

发明内容

本发明实施例提供一种欺诈邮件识别方法及装置，用以解决现有技术中存在的不能准确识别欺诈邮件，导致用户账户信息和个人信息容易被泄露，邮件系统安全性差的问题。

一方面，本发明实施例提供了一种欺诈邮件识别方法，包括：

获取待识别邮件；

根据预先建立的可疑关键词库和可疑相关词库，提取所述待识别邮件中的特征词；

根据预先建立的邮件概率图模型，确定所述特征词的最大状态概率；所述邮件概率图模型为表征特征词表现为状态链上的状态的概率的模型；

根据所述特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益；

根据所述信息增益确定邮件分类决策值，根据所述邮件分类决策值对待识别邮件进行分类，根据分类结果确定待识别邮件是否为欺诈邮件。

在一些可选的实施例中，根据预先建立的邮件概率图模型，确定所述特征词的最大状态概率，具体包括：

根据邮件概率图模型中包括的表征第一隐含状态表现为第二隐含状态的概率的状态转移矩阵和表征特征词表现为状态链上的隐含状态的概率的可见状态转移矩阵，针对每个特征词进行如下计算：

根据特征词表现为状态链上的隐含状态的概率和第一隐含状态表现为第二隐含状态的概率，分别确定特征词表现为每个隐含状态的概率；

提取计算得到的概率的最大值，作为特征词的最大状态概率。

在一些可选的实施例中，根据所述特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益，具体包括：

根据设定的邮件类别，确定选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵；

根据所述特征词的最大状态概率、选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵，确定表征每个状态对邮件类别贡献度的信息增益。

在一些可选的实施例中，根据所述信息增益确定邮件分类决策值，根据所述邮件分类决策值对待识别邮件进行分类，具体包括：

针对每个邮件类别，计算待识别邮件在该类别下的邮件分类决策值：分别计算每个状态对该邮件类别的信息增益与该状态下的最大状态概率出现的概率的乘积，并将所得的各乘积相加，得到该类别的邮件分类决策值；

比较各邮件类别的分类决策值的大小，将待识别邮件归入分类决策值最大的邮件类别；相应的，

所述根据分类结果确定待识别邮件是否为欺诈邮件，具体包括：

若待识别邮件被归入欺诈邮件类别，则确定待识别邮件为欺诈邮件。

在一些可选的实施例中，建立可疑关键词库和可疑相关词库的过程，包括：

对选定的欺诈邮件样本库中的邮件样本进行特征分析，建立可疑关键词库；

获取进信邮件抽样集，从进信邮件抽样集所包含的邮件中提取所述可疑关键词库中所包含的关键词的相关词汇，得到可疑相关词库。

本发明实施例还提供一种欺诈邮件识别装置，包括：

获取模块，用于获取待识别邮件；

提取模块，用于根据预先建立的可疑关键词库和可疑相关词库，提取所述待识别邮件中的特征词；

确定模块，用于根据预先建立的邮件概率图模型，确定所述特征词的最大状态概率；所述邮件概率图模型为表征特征词表现为状态链上的状态的概率的模型；

计算模块，用于根据所述特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益；

分类模块，用于根据所述信息增益确定邮件分类决策值，根据所述邮件分类决策值对待识别邮件进行分类，根据分类结果确定待识别邮件是否为欺诈邮件。

在一些可选的实施例中，所述确定模块，具体用于：

在一些可选的实施例中，所述计算模块，具体用于：

在一些可选的实施例中，所述分类模块，具体用于：

比较各邮件类别的分类决策值的大小，将待识别邮件归入分类决策值最大的邮件类别；

在一些可选的实施例中，上述装置还包括词库建立模块，用于：

上述技术方案具有如下有益效果：通过预先建立的邮件概率图模型来确定状态词的最大状态概率，通过特征词的最大状态概率来确定每个状态对邮件类别贡献度，根据贡献度确定邮件分类决策值，对邮件进行分类，从而准确的将不同类别的邮件进行归类，准确的识别欺诈邮件，避免个人信息和用户账户信息泄露，提高邮件系统的安全性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中欺诈邮件识别的框架和原理示意图；

图2是本发明实施例一中欺诈邮件识别方法的流程图；

图3是本发明实施例二中建立特征词汇集的实现流程图；

图4是本发明实施例二中生成可疑相关词库的原理示意图；

图5是本发明实施例二中操作词聚类结果示例图；

图6是本发明实施例三中LDA模型示意图；

图7是本发明实施例三中状态转换的原理示意图；

图8是本发明实施例三中更新后的状态转换的原理示意图；

图9是本发明实施例四中对待识别邮件进行分类的是实现流程图；

图10是本发明实施例中欺诈邮件识别的原理框架具体结构示意图；

图11是本发明实施例中欺诈邮件识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的不能准确识别欺诈邮件，导致邮件系统安全性差的问题，本发明实施例提供一种欺诈邮件识别方法，能够准确的识别出欺诈邮件，提高系统安全性，减少个人信息和用户账户信息泄露的可能性。

本发明实施例提供的欺诈邮件识别方法，基于欺诈邮件对用户的危害性以及其本身的文本特殊性，来实现对欺诈邮件的识别，该方法从概率图角度区别正常通知性邮件和欺诈邮件。其实现框架和原理示意如图1所示，主要可以包括三个部分：一是特征库建立部分，该部分实现特征词汇集的建立；二是邮件隐马尔可夫模型(Hidden Markov Model，HMM)模型的训练和邮件HMM估计部分，该部分实现特征词汇集到状态词汇集的映射，待识别邮件的状态图模型描述；三是邮件分类部分，该部分实现根据词语不同状态对分类的贡献度识别欺诈邮件。

欺诈邮件与正常通知性邮件最大的区别在于欺诈邮件中用户操作原因词和用户操作原因相关词不明显。本发明将从概率图角度描述一封邮件中词汇之间的相互转换关系，从特征词中提取用户操作原因词和原因相关词，建立一个针对通知性邮件的欺诈邮件识别系统。本发明方法经过特征词汇集的建立，特征词汇集到状态词汇集的映射，待识别邮件的状态图模型描述，根据词语不同状态对分类的贡献度识别欺诈邮件。下面通过具体的实施例描述该方法的实现流程。

实施例一

本发明实施例一提供的欺诈邮件识别方法，其流程如图2所示，包括如下步骤：

步骤S101：获取待识别邮件。

待识别的邮件可以包括系统收发的任意一封邮件，当系统收到邮件时，或要发出邮件时，都可以对邮件进行识别，识别出欺诈邮件，对这些恶意邮件进行拦截或屏蔽处理等，以保证系统的安全。

步骤S102：根据预先建立的可疑关键词库和可疑相关词库，提取待识别邮件中的特征词。

由于欺诈邮件有其特殊的目的，为了让用户点击恶意链接，因此邮件中采用的“点击”、“下载”等词汇的概率很大。将这些目的性词汇收集构成可疑关键词库A；并以全部进信邮件抽样集作为训练集，使用潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)作为词语聚类手段，提取与可疑关键词库A中的词汇的相关词汇，建立可疑相关词库B；最后得到的特征词汇集——词库A+B就可以代表欺诈邮件或与欺诈邮件用词相似的正常通知性邮件的全部特征了。

因此，在对邮件进行识别时，需要预先建立可疑关键词库和可疑相关词库，以便根据建立的可疑关键词库和可疑相关词库提取待识别邮件的特征词汇。

如图1所示的特征库建立部分，建立可疑关键词库和可疑相关词库的过程，可以包括：对选定的欺诈邮件样本库中的邮件样本进行特征分析，建立可疑关键词库；获取进信邮件抽样集，从进信邮件抽样集所包含的邮件中提取可疑关键词库中所包含的关键词的相关词汇，得到可疑相关词库。

步骤S103：根据预先建立的邮件概率图模型，确定特征词的最大状态概率。其中，邮件概率图模型为表征特征词表现为状态链上的状态的概率的模型。

简单介绍一下LDA模型，LDA是一种文档主题生成模型，根据该模型对邮件进行处理，可以建立邮件概率图模型，邮件概率图模型可以表征特征词表现为状态链上的状态的概率，所以根据邮件概率图模型可疑确定邮件中提取的特征词的最大概率状态。其中，特征词的最大状态概率可以有多种确定方式，比如一种可选的确定过程为：

该步骤相当于建立了基于邮件中每个特征词的邮件状态链，建立的邮件状态链可以用于邮件分类过程。

如图1所示的邮件HMM模型的训练和邮件HMM估计部分。

步骤S104：根据特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益。

确定特征词的最大状态概率之后，可以据此对邮件进行分类计算，如图1中的邮件分类部分，首先确定每个状态对邮件类别的贡献度，可以通过信息增益来表征，信息增益的确定过程包括：

根据特征词的最大状态概率、选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵，确定表征每个状态对邮件类别贡献度的信息增益。

步骤S105：根据得到的信息增益确定邮件分类决策值。

信息增益确定后，进一步确定分类决策值，分类决策值是邮件分类的依据，据此将邮件归入不同的类别。计算分类决策值也有多种可选方案，比如一种可选的方式为：

步骤S106：根据确定出的邮件分类决策值对待识别邮件进行分类。

计算得到分类决策值后，通过比较各邮件类别的分类决策值的大小，将待识别邮件归入分类决策值最大的邮件类别。

步骤S104-步骤S106为根据邮件状态链实现邮件分类的过程。

步骤S107：根据分类结果确定待识别邮件是否为欺诈邮件。具体的，若待识别邮件被归入欺诈邮件类别，则确定待识别邮件为欺诈邮件。

分类完成后，被分入欺诈邮件这一类别的邮件，即为欺诈邮件。

实施例二

本发明实施例二提供上述欺诈邮件识别方法中，建立特征词汇集的一种可选实现过程，通过该过程，建立起包括可疑关键词库和可疑相关词库的特征词汇集，其流程如图3所示，包括如下步骤：

步骤S201：对选定的欺诈邮件样本库中的邮件样本进行特征分析。

对欺诈邮件样本库中的欺诈邮件进行特征分析，发现欺诈邮件通常会包含有链接地址类的词汇，比如：点击、下载、链接、按钮、點擊、……等等。

步骤S202：根据分析结果建立可疑关键词库。

根据欺诈邮件样本库及特征分析建立可疑关键词库A，由于欺诈邮件通常是含有链接地址类的词汇，可疑关键词库A包括“点击|下载|链接|按钮|點擊”等词汇。

步骤S203：获取进信邮件抽样集。

以进信邮件抽样集中的邮件作为样本，来获取所建立的可疑关键词库相关的可疑相关词库。

步骤S204：从进信邮件抽样集所包含的邮件中提取可疑关键词库中所包含的关键词的相关词汇，得到可疑相关词库。

建立与可疑关键词库A相关的词汇库时，可以使用LDA作为词语聚类手段，过滤出与可疑关键词库A中词汇相关性高的特征词，组成可疑相关词汇集，即可疑相关词库B。生成可疑相关词库的原理如图4所示，获取进信抽样邮件集，取动词作为每封邮件的特征向量，进行LDA聚类，得到词汇聚类结果。

在具体描述LDA主题模型的聚类原理前，先把LDA模型当做一个黑盒，讲述一下LDA聚类模型的输入和输出，参见图4。以全部进信邮件抽样集作为训练集，特征词全部取动词的形式，因为动词最能够表示用户的操作状态。取邮件抽样集中所有动词作为特征维数N，以一封邮件中出现的动词次数作为特征向量对应维数的值描述邮件，LDA聚类的结果就是操作动词聚类的结果。部分与“点击”相关的操作词聚类结果可以参见图5。图5所示的，得到的可疑相关词汇包括开展、品味、选择、期望、……、等等。

实施例三

本发明实施例三提供上述欺诈邮件识别方法中，邮件HMM模型的训练和估计部分的实现过程。其中，包括邮件概率图模型建立的一种可选实现过程和通过特征词汇集到状态词汇集的映射确定特征词的最大状态概率。

如图1所示的邮件HMM模型的训练和邮件HMM估计部分，该部分解决两个问题，一是特征词汇集到状态词汇集的映射；二是一封邮件的概率图模型描述。即欺诈邮件所要求的用户操作的原因不存在或者不合理。该模型将特征词在邮件中的作用分为三个状态，用户操作原因词，用户操作词，用户操作相关词；概率图模型表述的就是邮件特征词映射到各个状态的输出率和状态之间的转移关系。概率图模型建立目的是从邮件的特征词估计输出特征词的状态。其中，HMM模型是概率图模型的一种，该方案中可以选用HMM模型，也可以写成概率图模型。

首先，介绍一下LDA模型，在该模型中，每篇文档假定存在多个主题，LDA模型如图6所示：

主题、词、文档各算作一个变量。文档生成的过程在该图中可以清晰表示，其中：

超参数α是符合diriclet分布的文档主题分布参数，

超参数β是符合diriclet分布的主题词汇分布参数

θ_i是文档i中的主题分布

是主题k中的词汇分布

z_ij代表文档i中的第j个主题

w_ij代表文档i中的第j个词

最里面的版块代表文档中被重复选择的主题和词，该模型的基本原理是首先选定一个主题向量θ，确定每个主题被选择的概率。然后在生成每个单词的时候，从主题分布向量θ中选择一个主题z，按主题z的单词概率分布生成一个单词w；重复这些步骤，整个文档就生成了。

具体描述如下：

假设有特征词汇M个，K个主题，文档生成的具体步骤如下：

1)选择θ_i：Dir(α)，其中，i∈{1，...M}；

2)选择：Dir(β)，其中，k∈{1，....K}；

3)(a)根据以下分布选择一个主题：z_ij：Multinomial(θ_i)

(b)根据以下分布从一个主题选择一个词：w_ij：

其中，w_ij为第j篇文档中的第i个词。

根据以上模型，假设训练集有N篇文档，联合概率可以表示为：

LDA模型训练的目的就是训练得到P(Z|θ)，P(W|Z)，即P(Z|θ)特定文档下主题分布，P(W|Z)特定主题下词汇分布。

下面详细描述本实施例中提供的邮件概率图模型的训练和估计。

其中，概率图模型的建立过程如下：

首先还是分析特征库的一堆词。把每个词看成一种状态：

状态链：state1(用户操作相关(登录/升级等)的理由)-＞state2(用户操作(登录/升级等))-＞state3(用户操作相关)-＞state4(其他词汇)。

每篇通知类相关文章的状态结构假设如下，每件邮件的文字都含有4个状态：

statel：用户操作词(如登录|升级等)

state2：用户操作的理由(如修改密码等)

state3：用户操作的相关词(如联系等)。

state4：非用户操作相关词，其他词汇。

由此，状态转换图原理上如下图7所示，根据state1的状态假设，state4是与state1-3等动作不相关的词汇，即P(State4|state1)～0、P(State4|state2)～0、P(State4|state3)～0，state1-3与state4之间的状态链可以去掉；另外，从邮件内容直接观察到的是特征词，特征词是可见状态，而上述四种状态是隐含状态，隐含状态到可见状态有一种转换关系，于是，新的概率图模型如图8所示，其中，邮件特征词链替代了state4。由图8及以上的分析可知，这个概率图就是隐式马尔科夫链。

隐式马尔科夫链后，就可以进行邮件概率图模型的训练了。其中，马尔科夫链的训练过程，是为了得到以下两个矩阵：

状态转移矩阵：

P(statel|state1) P(state2|state1) P(state3|state1)

[P(state1|state2) P(state2|state2) P(state3|state2)]

P(state1|state3) P(state2|state3) P(state3|state3)

参数意义：P(state_m|state_n)，是前一个状态为n，后一个状态为m的概率，或说第一隐含状态表现为第二隐含状态的概率。

可见状态转换矩阵：

参数意义：P(word_m|state_n)，是隐含状态为n表现为特征词m的概率，也可以说是特征词m表现为隐含状态为n的概率。

概率图模型训练的过程就是将所有转换关系的概率得出。本发明方法采取的方式是通过人工标注通知性邮件样本的方式，首先将邮件特征词提取出来，再将特征词所处的状态人工标注，最后统计计算概率值。计算公式：

P ({state}_{m} | {state}_{n}) = \frac{P ({state}_{m}, {state}_{n})}{P ({state}_{n})}

P ({word}_{j} | {state}_{i}) = \frac{P ({word}_{j}, {state}_{i})}{P ({state}_{i})}

完成概率图模型训练后，可以进行邮件概率图模型的估计，实现特征词的最大状态概率的计算。具体处理过程如下：

邮件样本能看到的一般是提取出的一堆特征词，该特征词属于什么状态，如“打开”这个词，是用户操作词，用户操作理由，都是不确定的，有可能打开就是打开链接这个操作，也有可能是因为打开了一些东西，因此用户需要进行登录点击等操作。因此，需要根据这一堆特征词估计出每个特征词属于的隐含状态链。这就是概率图模型估计的目的。算法采用的是维特比算法。说明如下：

假设有一封邮件的可见特征词链如下：

邀请、加入、点击、链接、打开、注册、……

第一个词为状态1的概率为：P1(state1-＞word1)

第一个词为状态2的概率为：P1(state2-＞word1)

第一个词的状态取P1的最大值，即为：

argmax_iP1(statei→word1)

第二个词为状态1的概率：

P2(word2→1)＝P1(i)*P(state_i→state1)*P(state1→word2)

第二个词为状态2的概率：

P2(word2→2)＝P1(i)*P(state_i→state2)*P(state2→word2)

第二个词的状态取P2的最大值，即为：

argmax_iP1(j)*P(statej→statei)*P(statei→word2)

可见，维特比算法的实质，不管序列多长，要从序列长度为1算起，算序列长度为1时取到每个特征词的最大概率。然后，逐渐增加长度，每增加一次长度，重新算一遍在这个长度下最后一个位置取到每个特征词的最大概率。

由此得出维特比算法的估计公式：

第j个词为状态i的概率：

Pj(statei)＝argmax_iP(j-1)(k)*P(state_k→state_i)*P(statei→word_j)

维特比算法伪码如下：

for j in length(words)：

for statei in(1..3)：

Pj(statei)＝argmax_iP(j-1)(k)*P(state_k→state_i)*P(statei→word_j)

上述实现了根据特征词表现为状态链上的隐含状态的概率和第一隐含状态表现为第二隐含状态的概率，分别确定特征词表现为每个隐含状态的概率；然后提取计算得到的概率的最大值，作为特征词的最大状态概率。

实施例四

本发明实施例四提供上述欺诈邮件识别方法中，基于建立的邮件概率图模型，实现邮件分类的一种可选实现过程，不同状态对邮件分类的贡献度不同，本发明方法采用仿决策树的算法计算出不同状态对类别的信息增益，并计算出分类贡献值，识别欺诈邮件。信息熵和信息增益的计算采用了仿决策树的算法。该部分邮件类别确定过程就是根据上述估计得到的邮件状态链确定邮件类别的过程。邮件分类过程的是吸纳流程如图9所示，包括如下步骤：

步骤S301：根据设定的邮件类别，确定选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵。

假设邮件类别可以分为包括正常通知邮件、欺诈邮件、其他邮件等。当然不限于这些分类，具体分类可以根据需要设定。

假设邮件类别用A_j表示，那么分别计算A_j类邮件出现的熵E(A_j)：

E(A_j)＝-P(A_j)*logP(A_j)

其中，P(Aj)为Aj类邮件出现的概率；

以及计算A_i类邮件对状态链上的状态statei的条件熵E(Aj|statei)：

E(A_j|state_i)＝-P(A_j|state_i)*logP(A_j|state_i)

其中，P(Aj|statei)为邮件中状态i类词汇出现条件下的邮件为Aj类的概率。

步骤S302：根据特征词的最大状态概率、选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵，确定表征每个状态对邮件类别贡献度的信息增益。

正常通知邮件是以上三种状态的组合(state1，state2，state3)；欺诈邮件有有可能的状态组合包括(state2，state3)；其他邮件state1，state2，state3对邮件分类的贡献度不大。也就是说，每种状态对不同的分类都有不同的贡献值，具体如下表1所示：

表1

	A1类(正常通知)	A2类(其他邮件)	A3类(欺诈邮件)
				state1	G1(A1)	G1(A2)	G1(A3)
state2	G2(A1)	G2(A2)	G2(A3)
				state3	G3(A1)	G3(A2)	G3(A3)
其他词汇(state4)	0	1	0

其中，为了方便描述，将正常通知邮件，其他邮件，欺诈邮件表示为A1，A2，A3；G1(A1)是指state1对A1类邮件的信息增益，表示的是state1对正常通知邮件的影响度。

信息增益的计算公式如下：

G_i(Aj)＝E(Aj)-P(statei)*E(Aj|statei)-P(no-state_i)E(Aj|no-state_i)

其中，E(A_j)是A_j类邮件出现的熵；

P(statei)是状态i在邮件中的出现率；

E(Aj|statei)是A_i类邮件对statei的条件熵；

P(no-state_i)是不属于statei状态的概率；

E(Aj|no-state_i)是Aj类邮件对非statei状态的条件熵。

步骤S303：针对每个邮件类别，计算待识别邮件在该类别下的邮件分类决策值。

分别计算每个状态对该邮件类别的信息增益与该状态下的最大状态概率出现的概率的乘积，并将所得的乘积相加，得到该类别的邮件分类决策值。

邮件分类决策值的计算公式如下：

J(A_i)＝P(state₁)*G1(Ai)+P(state₂)*G2(Ai)+P(state₃)*G3(Ai)

步骤S304：比较各邮件类别的分类决策值的大小。

比较一封邮件的分类决策值J(A₁)，J(A₂)，J(A₃)确定邮件分类

i＝argmax_iJ(A_i)

步骤S305：将待识别邮件归入分类决策值最大的邮件类别。

例如：待识别邮件的正常通知邮件的分类决策值最大，则归入正常通知邮件这一类别；待识别邮件的欺诈邮件的分类决策值最大，则归入欺诈邮件这一类别；……。

本发明实施例提供的上述欺诈邮件识别方法，整个实现过程涉及隐性马尔科夫链、LDA模型、相似度计算、维特比算法等相关技术，包含机器学习-概率图-隐性马尔科夫链-维特比算法，以及机器学习-数据挖掘-分类-决策树等处理过程。其实现原理框架具体如图8所示。

如图8中所示的，对于选定的邮件样本，根据TF-IDF值提取特征词，奖励L D A主题模型，并惊醒词汇聚类，建立状态特征库。根据TF-IDF值提取特征词，进行HMM估计状态链，根据状态贡献值决定邮件的分类。

基于同一发明构思，本发明实施例还提供一种欺诈邮件识别装置，其结构如图4所示，包括：获取模块101、提取模块102、确定模块103、计算模块104和分类模块105。

获取模块101，用于获取待识别邮件。

提取模块102，用于根据预先建立的可疑关键词库和可疑相关词库，提取待识别邮件中的特征词。

确定模块103，用于根据预先建立的邮件概率图模型，确定特征词的最大状态概率；其中，邮件概率图模型为表征特征词表现为状态链上的状态的概率的模型。

计算模块104，用于根据特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益。

分类模块105，用于根据所述信息增益确定邮件分类决策值，根据邮件分类决策值对待识别邮件进行分类，根据分类结果确定待识别邮件是否为欺诈邮件。

优选的，上述确定模块103，具体用于根据邮件概率图模型中包括的表征第一隐含状态表现为第二隐含状态的概率的状态转移矩阵和表征特征词表现为状态链上的隐含状态的概率的可见状态转移矩阵，针对每个特征词进行如下计算：根据特征词表现为状态链上的隐含状态的概率和第一隐含状态表现为第二隐含状态的概率，分别确定特征词表现为每个隐含状态的概率；提取计算得到的概率的最大值，作为特征词的最大状态概率。

优选的，上述计算模块104，具体用于根据设定的邮件类别，确定选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵；根据特征词的最大状态概率、选定类别邮件出现的熵和该选定类别邮件对状态链上的状态的条件熵，确定表征每个状态对邮件类别贡献度的信息增益。

优选的，上述分类模块105，具体用于针对每个邮件类别，计算待识别邮件在该类别下的邮件分类决策值：分别计算每个状态对该邮件类别的信息增益与该状态下的最大状态概率出现的概率的乘积，并将所得的各乘积相加，得到该类别的邮件分类决策值；比较各邮件类别的分类决策值的大小，将待识别邮件归入分类决策值最大的邮件类别；若待识别邮件被归入欺诈邮件类别，则确定待识别邮件为欺诈邮件。

优选的，上述装置还包括词库建立模块106，用于对选定的欺诈邮件样本库中的邮件样本进行特征分析，建立可疑关键词库；获取进信邮件抽样集，从进信邮件抽样集所包含的邮件中提取所述可疑关键词库中所包含的关键词的相关词汇，得到可疑相关词库。

优选的，上述装置还包括模型建立模块107，用于建立邮件概率图模型。

本发明实施例提供的欺诈邮件识别方法及装置，通过基于概率图的邮件反欺诈模型实现欺诈邮件识别，用状态表述整个邮件，并通过马尔科夫链描述状态之间的相互转换关系。从词语相关性的角度出发，描述欺诈邮件与一般通知性邮件的文本区别；使用LDA模型进行词语聚类，相较于一般的聚类算法更精确；使用可疑关键词集A，并通过词语聚类的方式得出可疑相关词集B；在拓展特征词库时，通过更新可疑词集就可以方便的进行整个特征词库的更新了；该方法借鉴决策树中信息增益的方法计算不同的状态对不同邮件类别的贡献，比较精确的描述状态对分类的影响程度。

上述方法提出邮件中的词汇分为三种状态，使用概率图模型(隐性马尔科夫链)描述邮件；用信息增益的方式判断不同状态对邮件分类的贡献度，表述状态对分类的影响；特征词的提取采用社会工程学分析的方法采集可疑词集，并使用词汇聚类的方式拓展特征词库。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤己经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种欺诈邮件识别方法，其特征在于，包括：

获取待识别邮件；

2.如权利要求1所述的方法，其特征在于，根据预先建立的邮件概率图模型，确定所述特征词的最大状态概率，具体包括：

3.如权利要求1所述的方法，其特征在于，根据所述特征词的最大状态概率，计算表征每个状态对邮件类别贡献度的信息增益，具体包括：

4.如权利要求1所述的方法，其特征在于，根据所述信息增益确定邮件分类决策值，根据所述邮件分类决策值对待识别邮件进行分类，具体包括：

5.如权利要求1-4任一所述的方法，其特征在于，建立可疑关键词库和可疑相关词库的过程，包括：

6.一种欺诈邮件识别装置，其特征在于，包括：

获取模块，用于获取待识别邮件；

7.如权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述分类模块，具体用于：

10.如权利要求6-9任一所述的装置，其特征在于，还包括：

词库建立模块，用于对选定的欺诈邮件样本库中的邮件样本进行特征分析，建立可疑关键词库；获取进信邮件抽样集，从进信邮件抽样集所包含的邮件中提取所述可疑关键词库中所包含的关键词的相关词汇，得到可疑相关词库。