CN110138723B

CN110138723B - 一种邮件网络中恶意社区的确定方法及系统

Info

Publication number: CN110138723B
Application number: CN201910226024.1A
Authority: CN
Inventors: 喻民; 姜建国; 杨群领; 刘超; 刘明奇; 黄伟庆
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2020-05-12
Anticipated expiration: 2039-03-25
Also published as: CN110138723A

Abstract

本发明实施例提供一种邮件网络中恶意社区的确定方法及系统。其中，方法包括：基于SimRank算法，确定邮件网络中的缺失邮件集合；基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统，通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题，使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

Description

一种邮件网络中恶意社区的确定方法及系统

技术领域

本发明实施例涉及信息安全技术领域，尤其涉及一种邮件网络中恶意社区的确定方法及系统。

背景技术

电子邮件由于其易用性和可携带信息的多维性，已成为现代社会不可缺少的通信方式之一，人们通过网络发送电子邮件，使交流变得更加容易、便捷。但近年来，电子邮件已成为敏感信息的主要传播途径，同时也成为泄密的主要途径，从而造成了严重的信息安全问题。

现有技术中，通常使用如下方法解决该信息安全问题：

S1，取证及网络构建：从目标主机中获取其存储的所有邮件，以构建邮件网络；

S2，根据该邮件网络中敏感邮件在所有邮件中的占比，判定该邮件网络是否为恶意网络，以根据判定结果采取相应的技术手段保障和维护信息安全。

但现有技术也存在一定缺陷：

仅根据目标主机中存储的所有邮件判定邮件网络是否为恶意网络，而没有考虑到在取证之前由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题，从而造成判定结果不准确，不能够充分保障和维护信息安全。

发明内容

针对现有技术中存在的技术问题，本发明实施例提供一种邮件网络中恶意社区的确定方法及系统。

第一方面，本发明实施例提供一种邮件网络中恶意社区的确定方法，包括：

基于SimRank算法，确定邮件网络中的缺失邮件集合；

基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

第二方面，本发明实施例提供一种邮件网络中恶意社区的确定系统，包括：

缺失邮件集合确定模块，用于基于SimRank算法，确定邮件网络中的缺失邮件集合；

恶意社区确定模块，用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统，通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题，使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种邮件网络中恶意社区的确定方法流程图；

图2为本发明实施例提供的一种有向图的结构示意图；

图3为本发明实施例提供的一种邮件网络中恶意社区的确定系统的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种邮件网络中恶意社区的确定方法流程图，如图1所示，该方法包括：

步骤101，基于SimRank算法，确定邮件网络中的缺失邮件集合。

具体地，邮件网络为基于目标主机中存储的所有邮件所构建的网络，其中，目标主机可以为邮件服务器或个人电脑主机，需要说明的是，邮件服务器是一种用来负责电子邮件收发管理的设备，个人电脑主机是计算机除去输入输出设备以外的主要机体部分。现有技术中通过判定该网络是否为恶意网络进而来保障和维护信息安全，但由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题，造成判定结果不准确，从而不能够充分保障和维护信息安全。其中，需要说明的是，恶意网络指的是在计算机系统上执行恶意任务的网络，在本发明实施例中特指传播敏感信息的邮件网络。

对此，本发明实施例基于SimRank算法，确定邮件网络中的缺失邮件集合。其中，缺失邮件集合包括若干封缺失邮件，需要说明的是，每一封缺失邮件均为目标主机中存储的所有邮件之外的邮件，是由于目标主机的硬件损毁或泄密者的反取证能力造成的已缺失的邮件。

本领域技术人员可以理解的是，通过确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题，使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

以下对SimRank算法进行简要说明：

SimRank是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型，该模型由MIT实验室的Glen Jeh和Jennifer Widom教授在2002年首先提出。SimRank相似度的核心思想为：如果两个对象和被其相似的对象所引用(即它们有相似的入邻边结构)，那么这两个对象也相似。近年来已在信息检索领域引起广泛关注，成功应用于网页排名、协同过滤、孤立点检测、网络图聚类、近似查询处理等。

在本发明实施例中，通过SimRank算法，可确定邮件网络中的缺失邮件集合。

步骤102，基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

需要说明的是，已知邮件集合指的是目标主机中存储的所有邮件所组成的集合，其包括若干封邮件。通过已知邮件集合和步骤101中确定的缺失邮件集合，能够判定邮件网络是否为恶意网络。

进一步地，由于邮件网络通常范围较大，为了实现精准定位恶意区域所在，本发明实施例将邮件网络划分为若干个社区，进而通过已知邮件集合和缺失邮件集合，确定每一社区是否为恶意社区。

最终，对所有恶意社区采取相应的技术手段进行处理，以保障和维护信息安全。

本发明实施例提供的方法，通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题，使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

在上述实施例的基础上，本发明实施例对构建邮件网络的过程进行进一步说明，即，所述基于SimRank算法，确定邮件网络中的缺失邮件集合，之前还包括：

步骤1001，获取目标主机中存储的所有邮件，组成所述已知邮件集合。

具体地，该步骤为邮件获取过程，可以理解的是，目标主机可以为邮件服务器或个人电脑主机，上述实施例中已对邮件服务器和个人电脑主机进行了说明，此处不再赘述。通常，目标主机中存储有若干封邮件，在本发明实施例中，获取这若干封邮件组成已知邮件集合。

其中，若目标主机为个人电脑主机，则获取该主机中安装的Outlook、Foxmail等邮件客户端中存储的所有离线邮件，将这所有的离线邮件组成已知邮件集合。

步骤1002，基于所述已知邮件集合，构建有向图G＝(V,E)并作为所述邮件网络；其中，V＝{v₁,...,v_i,...,v_n}为节点集合，v_i代表第i个邮件地址，E＝{<v₁,v_i>,...,<v_i,v_j>,...,<v_j,v_n>}为有向边集合，<v_i,v_j>代表v_i发送邮件至v_j。

需要说明的是，该步骤为邮件网络构建过程，具体为：

首先，对于已知邮件集合中的每一封邮件，提取该邮件的发件地址和收件地址作为该邮件的相关信息，然后，基于已知邮件集合中所有邮件的相关信息，构建有向图作为邮件网络。可选地，相关信息中还可包括邮件的正文信息和/或附件信息。

其中，基于已知邮件集合中所有邮件的相关信息，构建有向图，进一步包括：

首先，获取已知邮件集合中所有邮件的发件地址和收件地址，并将不同的邮件地址作为有向图G的各节点，例如，已知邮件集合包括A邮件、B邮件和C邮件，其中，A邮件的发件地址和收件地址分别为v₁和v₂，B邮件的发件地址和收件地址分别为v₂和v₃，C邮件的发件地址和收件地址分别为v₄和v₁，则，将v₁、v₂、v₃、v₄这四个邮件地址作为有向图G的四个节点，将V＝{v₁,v₂,v₃,v₄}作为节点集合。

然后，创建有向边以描述不同节点间的关系，例如，由于v₁向v₂发送了A邮件，因此，以一个v₁指向v₂的箭头描述v₁发送A邮件至v₂，由于v₂向v₃发送了B邮件，因此，以一个v₂指向v₃的箭头描述v₂发送B邮件至v₃，由于v₄向v₁发送了C邮件，因此，以一个v₄指向v₁的箭头描述v₄发送C邮件至v₁。此时，将E＝{<v₁,v₂>，<v₂,v₃>，<v₄,v₁>}作为有向边集合。

根据上述过程构建的有向图如图2所示，图2为本发明实施例提供的一种有向图的结构示意图，有向图中各节点和各有向边在上文中已详细说明，此处不再赘述。

将所构建的有向图作为邮件网络。

在上述各实施例的基础上，本发明实施例对确定缺失邮件集合的过程进行进一步说明，即，所述基于SimRank算法，确定邮件网络中的缺失邮件集合，包括：

步骤1011，对于所述邮件网络中不存在有向边的任意两个节点，根据以下公式判定所述任意两个节点间存在缺失邮件的概率R(v_i,v_j)：

其中，c为常系数且0＜c＜1，|S(v_i)|为v_i发出的敏感邮件的数量，|S(v_j)|为v_j发出的敏感邮件的数量，N(v_i)为v_i的临域，N(v_j)为v_j的临域，p为N(v_i)中的任一节点，q为N(v_j)中的任一节点，R(p,q)为p、q间存在已知邮件的概率，|N(v_i)|为v_i发出和收到的所有邮件的数量，|N(v_j)|为v_j发出和收到的所有邮件的数量。

可以理解的是，邮件网络中存在多个节点，即多个邮件地址，并且，不同节点间可能会存在有向边，即存在邮件往来关系，在本发明实施例中，对于邮件网络中不存在有向边的任意两个节点，也即，不存在邮件往来关系的任意两个邮件地址，根据以下公式判定这两个节点也即这两个邮件地址间存在缺失邮件概率R(v_i,v_j)：

其中，c为常系数且0＜c＜1，通常，c取0.8。

|S(v_i)|为v_i发出敏感邮件的数量，需要说明的是，此处的敏感邮件是从v_i发出的所有已知邮件中进行筛选所确定的。其中，筛选过程可以为：对于v_i发出的所有已知邮件中的每一封邮件，将该邮件的正文信息和/或附件信息与已知的敏感信息进行比对，根据比对结果判定该邮件是否为敏感邮件。

|S(v_j)|为v_j发出的敏感邮件的数量，需要说明的是，此处的敏感邮件是从v_j发出的所有已知邮件中进行筛选所确定的。筛选过程同上所述，此处不再赘述。

N(v_i)为v_i的临域，此处对临域进行说明：将v_i的所有有向边以及每一有向边上除自身之外的另一节点作为v_i的临域，例如，对于v₂，将v₁指向v₂的有向边、v₂指向v₃的有向边，以及v₁、v₃作为v₂的临域。

N(v_j)为v_j的临域，临域的概念同上所述，此处不再赘述。

p为N(v_i)中的任一节点，例如，对于v₂，p为v₁或v₃。

q为N(v_j)中的任一节点，其概念同上所述，此处不再赘述。

R(p,q)为p、q间存在已知邮件的概率，需要说明的是，两个节点间是否存在已知邮件可根据有向图直观看出，若存在已知邮件，则概率为1，否则，概率为0。

|N(v_i)|为v_i发出和收到的所有邮件的数量，需要说明的是，v_i发出和收到的所有邮件均为已知邮件。

|N(v_j)|为v_j发出和收到的所有邮件的数量需要说明的是，v_j发出和收到的所有邮件均为已知邮件。

步骤1012，若所述概率大于第一预设阈值，则判定所述任意两个节点间存在缺失邮件。

需要说明的是，第一预设阈值根据邮件网络复杂度所预先设定，也可根据需保障和维护的信息安全等级所预先设定，本发明实施例对第一预设阈值的具体设定不作限定。若概率大于第一预设阈值，则判定两个节点间存在缺失邮件且缺失邮件的数量为1。

步骤1013，将所述邮件网络中的所有缺失邮件，组成所述缺失邮件集合。

具体地，根据步骤1011和步骤1012，能够得到邮件网络中的所有缺失邮件，将这所有的缺失邮件组成缺失邮件集合。

在上述实施例的基础上，本发明实施例对邮件网络中恶意社区的确定进行进一步说明，即，所述基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区，包括：

步骤1021，基于所述缺失邮件集合，对所述邮件网络进行更新，生成更新后的邮件网络。

具体地，对于图2所示的邮件网络，若缺失邮件集合中的一封缺失邮件的发件地址为v₃，收件地址为v₄，则创建一个v₃指向v₄的箭头作为有向边，从而对邮件网络进行更新，生成更新后的邮件网络。

步骤1022，基于社区发现算法，将所述更新后的邮件网络划分为多个社区。

需要说明的是，对复杂网络的研究一直是许多领域的研究热点，其中社区结构是复杂网络中的一个普遍特征，整个网络是由许多社区组成的。社区发现算法用来发现网络中的社区结构，也可以看作是一种聚类算法。通过社区发现算法，可将本发明实施例中更新后的邮件网络划分为多个社区。

步骤1023，对于每一社区，计算所述社区中敏感邮件的占比，若所述占比大于第二预设阈值，则判定所述社区为恶意社区。

需要说明的是，第二预设阈值根据邮件网络复杂度所预先设定，也可根据需保障和维护的信息安全等级所预先设定，本发明实施例对第二预设阈值的具体设定不作限定。若社区中敏感邮件的占比大于第二预设阈值，则判定该社区为恶意社区。

在上述实施例的基础上，本发明实施例对上述实施例中的社区发现算法进行进一步说明，所述社区发现算法为K-L算法、谱二分算法、GN算法或Newman快速算法。

具体地，K-L算法是一种将已知网络划分为已知大小的两个社区的二分方法，它是一种贪婪算法。

谱二分算法利用的是Laplace矩阵的特征值和特征向量的性质来做社区划分。

GN算法是一个基于删除边的算法，本质是基于聚类中的分裂思想，在原理上是使用边介数作为相似度的度量方法。

Newman快速算法为一种基于贪心的快速社区发现算法。

在上述实施例的基础上，本发明实施例对上述实施例中确定社区中敏感邮件的占比进行进一步说明，即，所述计算所述社区中敏感邮件的占比，包括：

确定所述社区中的已知邮件子集和缺失邮件子集。

具体地，社区中包括若干个节点，将这若干个节点间的所有往来的已知邮件作为已知邮件子集，将这若干个节点间的所有往来的缺失邮件作为缺失邮件子集。

对于所述已知邮件子集，将所述已知邮件子集中的每一封邮件的正文信息和/或附件信息与已知敏感信息进行比对，根据比对结果判定所述邮件是否为敏感邮件。

具体地，该步骤用于确定已知邮件子集中的敏感邮件，具体可以为：

对于已知邮件子集中的每一封邮件，将该邮件的正文信息和/或附件信息进行分词，并与已知敏感信息进行智能匹配，提取邮件中所出现的敏感词的次数，若次数大于第三预设阈值，则判定该邮件携带有敏感信息，并将该邮件确定为敏感邮件。需要说明的是，第三预设阈值可根据实际应用场景进行设定，本发明实施例对其设定不作具体限定。

对于所述缺失邮件子集中的每一封邮件，若判定所述邮件的邮件地址所关联的所有已知邮件中存在敏感邮件，则判定所述邮件为敏感邮件。

需要说明的是，由于缺失邮件中不存在正文信息和附件信息，因此无法通过上述的判定过程确定缺失邮件子集中的敏感邮件。

因此，本发明实施例通过如下步骤确定缺失邮件子集中的敏感邮件，具体为：

对于缺失邮件子集中的每一封邮件，该邮件的邮件地址都有两个，其一为发件地址，其二为收件地址，在发件地址所关联的所有已知邮件和收件地址所关联的所有已知邮件中，确定是否存在至少一封敏感邮件，若存在至少一封敏感邮件，则判定缺失邮件子集中的这封邮件为敏感邮件。

需要说明的是，发件地址所关联的所有已知邮件为该发件地址所发出和接收到的所有已知邮件，同理，收件地址所关联的所有已知邮件为该收件地址所发出和接收到的所有已知邮件。

计算所述已知邮件子集中邮件数量与所述缺失邮件子集中邮件数量的总和并作为第一数量，计算所述社区中所有敏感邮件的数量并作为第二数量，将所述第二数量与所述第一数量之比作为所述占比。

进而，根据敏感邮件的占比判定该社区是否为恶意社区。

图3为本发明实施例提供的一种邮件网络中恶意社区的确定系统的结构示意图，如图3所示，该系统包括：

缺失邮件集合确定模块301，用于基于SimRank算法，确定邮件网络中的缺失邮件集合；恶意社区确定模块302，用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

具体地，邮件网络为基于目标主机中存储的所有邮件所构建的网络，现有技术中通过判定该网络是否为恶意网络进而来保障和维护信息安全，但由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题，造成判定结果不准确，从而不能够充分保障和维护信息安全。对此，本发明实施例提供的缺失邮件集合确定模块301，基于SimRank算法，确定邮件网络中的缺失邮件集合。其中，缺失邮件集合包括若干封缺失邮件，需要说明的是，每一封缺失邮件均为目标主机中存储的所有邮件之外的邮件，是由于目标主机的硬件损毁或泄密者的反取证能力造成的已缺失的邮件。本发明实施例提供的恶意社区确定模块302，通过已知邮件集合和缺失邮件集合确定模块301中确定的缺失邮件集合，能够判定邮件网络是否为恶意网络。

本发明实施例提供的系统，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。本发明实施例提供的系统，通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题，使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

在上述实施例的基础上，本发明实施例提供的系统还包括：

邮件获取模块，用于获取目标主机中存储的所有邮件，组成所述已知邮件集合；

邮件网络构建模块，用于基于所述已知邮件集合，构建有向图G＝(V,E)并作为所述邮件网络；其中，V＝{v₁,...,v_i,...,v_n}为节点集合，v_i代表第i个邮件地址，E＝{<v₁,v_i>,...,<v_i,v_j>,...,<v_j,v_n>}为有向边集合，<v_i,v_j>代表v_i发送邮件至v_j。

需要说明的是，本发明实施例提供的系统中邮件获取模块和邮件网络构建模块的功能和作用在上述方法实施例中已详细说明，此处不再赘述。

综上，本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统，对原生SimRank算法进行了改进，在将其应用到取证过程中后成功的实现了缺失邮件发现。并将缺失邮件并补充到根据已知邮件构建的邮件网络中，以确定该邮件网络中的恶意社区。使得判定过程能够基于完整的数据集，从而提高判定结果的准确性，充分保障和维护信息安全。

图4为本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：基于SimRank算法，确定邮件网络中的缺失邮件集合；基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：基于SimRank算法，确定邮件网络中的缺失邮件集合；基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种邮件网络中恶意社区的确定方法，其特征在于，包括：

基于SimRank算法，计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率，根据所述概率确定邮件网络中的缺失邮件集合；

基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区；

其中，所述已知邮件集合为目标主机中存储的所有邮件所组成的集合；

所述基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区，包括：

基于所述缺失邮件集合，对所述邮件网络进行更新，生成更新后的邮件网络；

基于社区发现算法，将所述更新后的邮件网络划分为多个社区；

对于每一社区，计算所述社区中敏感邮件的占比，若所述占比大于第二预设阈值，则判定所述社区为恶意社区。

2.根据权利要求1所述的方法，其特征在于，所述基于SimRank算法，计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率，根据所述概率确定邮件网络中的缺失邮件集合，之前还包括：

获取目标主机中存储的所有邮件，组成所述已知邮件集合；

基于所述已知邮件集合，构建有向图G＝(V,E)并作为所述邮件网络；其中，V＝{v₁,...,v_i,...,v_n}为节点集合，v_i代表第i个邮件地址，E＝{＜v₁,v_i＞,...,＜v_i,v_j＞,...,＜v_j,v_n＞}为有向边集合，＜v_i,v_j＞代表v_i发送邮件至v_j。

3.根据权利要求2所述的方法，其特征在于，所述基于SimRank算法，计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率，根据所述概率确定邮件网络中的缺失邮件集合，包括：

对于所述邮件网络中不存在有向边的任意两个节点，根据以下公式判定所述任意两个节点间存在缺失邮件的概率R(v_i,v_j)：

其中，c为常系数且0＜c＜1，|S(v_i)|为v_i发出的敏感邮件的数量，|S(v_j)|为v_j发出的敏感邮件的数量，N(v_i)为v_i的临域，N(v_j)为v_j的临域，p为N(v_i)中的任一节点，q为N(v_j)中的任一节点，R(p,q)为p、q间存在已知邮件的概率，|N(v_i)|为v_i发出和收到的所有邮件的数量，|N(v_j)|为v_j发出和收到的所有邮件的数量；

若所述概率大于第一预设阈值，则判定所述任意两个节点间存在缺失邮件；

将所述邮件网络中的所有缺失邮件，组成所述缺失邮件集合。

4.根据权利要求1所述的方法，其特征在于，所述社区发现算法为K-L算法、谱二分算法、GN算法或Newman快速算法。

5.根据权利要求1所述的方法，其特征在于，所述计算所述社区中敏感邮件的占比，包括：

确定所述社区中的已知邮件子集和缺失邮件子集；

对于所述已知邮件子集，将所述已知邮件子集中的每一封邮件的正文信息和/或附件信息与已知敏感信息进行比对，根据比对结果判定所述邮件是否为敏感邮件；

对于所述缺失邮件子集中的每一封邮件，若判定所述邮件的邮件地址所关联的所有已知邮件中存在敏感邮件，则判定所述邮件为敏感邮件；

6.一种邮件网络中恶意社区的确定系统，其特征在于，包括：

缺失邮件集合确定模块，用于基于SimRank算法，计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率，根据所述概率确定邮件网络中的缺失邮件集合；

恶意社区确定模块，用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合，确定所述邮件网络中的恶意社区；

7.根据权利要求6所述的系统，其特征在于，还包括：

邮件网络构建模块，用于基于所述已知邮件集合，构建有向图G＝(V,E)并作为所述邮件网络；其中，V＝{v₁,...,v_i,...,v_n}为节点集合，v_i代表第i个邮件地址，E＝{＜v₁,v_i＞,...,＜v_i,v_j＞,...,＜v_j,v_n＞}为有向边集合，＜v_i,v_j＞代表v_i发送邮件至v_j。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。