CN110138723B - 一种邮件网络中恶意社区的确定方法及系统 - Google Patents

一种邮件网络中恶意社区的确定方法及系统 Download PDF

Info

Publication number
CN110138723B
CN110138723B CN201910226024.1A CN201910226024A CN110138723B CN 110138723 B CN110138723 B CN 110138723B CN 201910226024 A CN201910226024 A CN 201910226024A CN 110138723 B CN110138723 B CN 110138723B
Authority
CN
China
Prior art keywords
mail
mails
missing
network
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910226024.1A
Other languages
English (en)
Other versions
CN110138723A (zh
Inventor
喻民
姜建国
杨群领
刘超
刘明奇
黄伟庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910226024.1A priority Critical patent/CN110138723B/zh
Publication of CN110138723A publication Critical patent/CN110138723A/zh
Application granted granted Critical
Publication of CN110138723B publication Critical patent/CN110138723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种邮件网络中恶意社区的确定方法及系统。其中,方法包括:基于SimRank算法,确定邮件网络中的缺失邮件集合;基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统,通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题,使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。

Description

一种邮件网络中恶意社区的确定方法及系统
技术领域
本发明实施例涉及信息安全技术领域,尤其涉及一种邮件网络中恶意社区的确定方法及系统。
背景技术
电子邮件由于其易用性和可携带信息的多维性,已成为现代社会不可缺少的通信方式之一,人们通过网络发送电子邮件,使交流变得更加容易、便捷。但近年来,电子邮件已成为敏感信息的主要传播途径,同时也成为泄密的主要途径,从而造成了严重的信息安全问题。
现有技术中,通常使用如下方法解决该信息安全问题:
S1,取证及网络构建:从目标主机中获取其存储的所有邮件,以构建邮件网络;
S2,根据该邮件网络中敏感邮件在所有邮件中的占比,判定该邮件网络是否为恶意网络,以根据判定结果采取相应的技术手段保障和维护信息安全。
但现有技术也存在一定缺陷:
仅根据目标主机中存储的所有邮件判定邮件网络是否为恶意网络,而没有考虑到在取证之前由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题,从而造成判定结果不准确,不能够充分保障和维护信息安全。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种邮件网络中恶意社区的确定方法及系统。
第一方面,本发明实施例提供一种邮件网络中恶意社区的确定方法,包括:
基于SimRank算法,确定邮件网络中的缺失邮件集合;
基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
第二方面,本发明实施例提供一种邮件网络中恶意社区的确定系统,包括:
缺失邮件集合确定模块,用于基于SimRank算法,确定邮件网络中的缺失邮件集合;
恶意社区确定模块,用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统,通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题,使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种邮件网络中恶意社区的确定方法流程图;
图2为本发明实施例提供的一种有向图的结构示意图;
图3为本发明实施例提供的一种邮件网络中恶意社区的确定系统的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种邮件网络中恶意社区的确定方法流程图,如图1所示,该方法包括:
步骤101,基于SimRank算法,确定邮件网络中的缺失邮件集合。
具体地,邮件网络为基于目标主机中存储的所有邮件所构建的网络,其中,目标主机可以为邮件服务器或个人电脑主机,需要说明的是,邮件服务器是一种用来负责电子邮件收发管理的设备,个人电脑主机是计算机除去输入输出设备以外的主要机体部分。现有技术中通过判定该网络是否为恶意网络进而来保障和维护信息安全,但由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题,造成判定结果不准确,从而不能够充分保障和维护信息安全。其中,需要说明的是,恶意网络指的是在计算机系统上执行恶意任务的网络,在本发明实施例中特指传播敏感信息的邮件网络。
对此,本发明实施例基于SimRank算法,确定邮件网络中的缺失邮件集合。其中,缺失邮件集合包括若干封缺失邮件,需要说明的是,每一封缺失邮件均为目标主机中存储的所有邮件之外的邮件,是由于目标主机的硬件损毁或泄密者的反取证能力造成的已缺失的邮件。
本领域技术人员可以理解的是,通过确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题,使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。
以下对SimRank算法进行简要说明:
SimRank是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型,该模型由MIT实验室的Glen Jeh和Jennifer Widom教授在2002年首先提出。SimRank相似度的核心思想为:如果两个对象和被其相似的对象所引用(即它们有相似的入邻边结构),那么这两个对象也相似。近年来已在信息检索领域引起广泛关注,成功应用于网页排名、协同过滤、孤立点检测、网络图聚类、近似查询处理等。
在本发明实施例中,通过SimRank算法,可确定邮件网络中的缺失邮件集合。
步骤102,基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
需要说明的是,已知邮件集合指的是目标主机中存储的所有邮件所组成的集合,其包括若干封邮件。通过已知邮件集合和步骤101中确定的缺失邮件集合,能够判定邮件网络是否为恶意网络。
进一步地,由于邮件网络通常范围较大,为了实现精准定位恶意区域所在,本发明实施例将邮件网络划分为若干个社区,进而通过已知邮件集合和缺失邮件集合,确定每一社区是否为恶意社区。
最终,对所有恶意社区采取相应的技术手段进行处理,以保障和维护信息安全。
本发明实施例提供的方法,通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题,使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。
在上述实施例的基础上,本发明实施例对构建邮件网络的过程进行进一步说明,即,所述基于SimRank算法,确定邮件网络中的缺失邮件集合,之前还包括:
步骤1001,获取目标主机中存储的所有邮件,组成所述已知邮件集合。
具体地,该步骤为邮件获取过程,可以理解的是,目标主机可以为邮件服务器或个人电脑主机,上述实施例中已对邮件服务器和个人电脑主机进行了说明,此处不再赘述。通常,目标主机中存储有若干封邮件,在本发明实施例中,获取这若干封邮件组成已知邮件集合。
其中,若目标主机为个人电脑主机,则获取该主机中安装的Outlook、Foxmail等邮件客户端中存储的所有离线邮件,将这所有的离线邮件组成已知邮件集合。
步骤1002,基于所述已知邮件集合,构建有向图G=(V,E)并作为所述邮件网络;其中,V={v1,...,vi,...,vn}为节点集合,vi代表第i个邮件地址,E={<v1,vi>,...,<vi,vj>,...,<vj,vn>}为有向边集合,<vi,vj>代表vi发送邮件至vj
需要说明的是,该步骤为邮件网络构建过程,具体为:
首先,对于已知邮件集合中的每一封邮件,提取该邮件的发件地址和收件地址作为该邮件的相关信息,然后,基于已知邮件集合中所有邮件的相关信息,构建有向图作为邮件网络。可选地,相关信息中还可包括邮件的正文信息和/或附件信息。
其中,基于已知邮件集合中所有邮件的相关信息,构建有向图,进一步包括:
首先,获取已知邮件集合中所有邮件的发件地址和收件地址,并将不同的邮件地址作为有向图G的各节点,例如,已知邮件集合包括A邮件、B邮件和C邮件,其中,A邮件的发件地址和收件地址分别为v1和v2,B邮件的发件地址和收件地址分别为v2和v3,C邮件的发件地址和收件地址分别为v4和v1,则,将v1、v2、v3、v4这四个邮件地址作为有向图G的四个节点,将V={v1,v2,v3,v4}作为节点集合。
然后,创建有向边以描述不同节点间的关系,例如,由于v1向v2发送了A邮件,因此,以一个v1指向v2的箭头描述v1发送A邮件至v2,由于v2向v3发送了B邮件,因此,以一个v2指向v3的箭头描述v2发送B邮件至v3,由于v4向v1发送了C邮件,因此,以一个v4指向v1的箭头描述v4发送C邮件至v1。此时,将E={<v1,v2>,<v2,v3>,<v4,v1>}作为有向边集合。
根据上述过程构建的有向图如图2所示,图2为本发明实施例提供的一种有向图的结构示意图,有向图中各节点和各有向边在上文中已详细说明,此处不再赘述。
将所构建的有向图作为邮件网络。
在上述各实施例的基础上,本发明实施例对确定缺失邮件集合的过程进行进一步说明,即,所述基于SimRank算法,确定邮件网络中的缺失邮件集合,包括:
步骤1011,对于所述邮件网络中不存在有向边的任意两个节点,根据以下公式判定所述任意两个节点间存在缺失邮件的概率R(vi,vj):
Figure BDA0002005218430000061
其中,c为常系数且0<c<1,|S(vi)|为vi发出的敏感邮件的数量,|S(vj)|为vj发出的敏感邮件的数量,N(vi)为vi的临域,N(vj)为vj的临域,p为N(vi)中的任一节点,q为N(vj)中的任一节点,R(p,q)为p、q间存在已知邮件的概率,|N(vi)|为vi发出和收到的所有邮件的数量,|N(vj)|为vj发出和收到的所有邮件的数量。
可以理解的是,邮件网络中存在多个节点,即多个邮件地址,并且,不同节点间可能会存在有向边,即存在邮件往来关系,在本发明实施例中,对于邮件网络中不存在有向边的任意两个节点,也即,不存在邮件往来关系的任意两个邮件地址,根据以下公式判定这两个节点也即这两个邮件地址间存在缺失邮件概率R(vi,vj):
Figure BDA0002005218430000062
其中,c为常系数且0<c<1,通常,c取0.8。
|S(vi)|为vi发出敏感邮件的数量,需要说明的是,此处的敏感邮件是从vi发出的所有已知邮件中进行筛选所确定的。其中,筛选过程可以为:对于vi发出的所有已知邮件中的每一封邮件,将该邮件的正文信息和/或附件信息与已知的敏感信息进行比对,根据比对结果判定该邮件是否为敏感邮件。
|S(vj)|为vj发出的敏感邮件的数量,需要说明的是,此处的敏感邮件是从vj发出的所有已知邮件中进行筛选所确定的。筛选过程同上所述,此处不再赘述。
N(vi)为vi的临域,此处对临域进行说明:将vi的所有有向边以及每一有向边上除自身之外的另一节点作为vi的临域,例如,对于v2,将v1指向v2的有向边、v2指向v3的有向边,以及v1、v3作为v2的临域。
N(vj)为vj的临域,临域的概念同上所述,此处不再赘述。
p为N(vi)中的任一节点,例如,对于v2,p为v1或v3
q为N(vj)中的任一节点,其概念同上所述,此处不再赘述。
R(p,q)为p、q间存在已知邮件的概率,需要说明的是,两个节点间是否存在已知邮件可根据有向图直观看出,若存在已知邮件,则概率为1,否则,概率为0。
|N(vi)|为vi发出和收到的所有邮件的数量,需要说明的是,vi发出和收到的所有邮件均为已知邮件。
|N(vj)|为vj发出和收到的所有邮件的数量需要说明的是,vj发出和收到的所有邮件均为已知邮件。
步骤1012,若所述概率大于第一预设阈值,则判定所述任意两个节点间存在缺失邮件。
需要说明的是,第一预设阈值根据邮件网络复杂度所预先设定,也可根据需保障和维护的信息安全等级所预先设定,本发明实施例对第一预设阈值的具体设定不作限定。若概率大于第一预设阈值,则判定两个节点间存在缺失邮件且缺失邮件的数量为1。
步骤1013,将所述邮件网络中的所有缺失邮件,组成所述缺失邮件集合。
具体地,根据步骤1011和步骤1012,能够得到邮件网络中的所有缺失邮件,将这所有的缺失邮件组成缺失邮件集合。
在上述实施例的基础上,本发明实施例对邮件网络中恶意社区的确定进行进一步说明,即,所述基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区,包括:
步骤1021,基于所述缺失邮件集合,对所述邮件网络进行更新,生成更新后的邮件网络。
具体地,对于图2所示的邮件网络,若缺失邮件集合中的一封缺失邮件的发件地址为v3,收件地址为v4,则创建一个v3指向v4的箭头作为有向边,从而对邮件网络进行更新,生成更新后的邮件网络。
步骤1022,基于社区发现算法,将所述更新后的邮件网络划分为多个社区。
需要说明的是,对复杂网络的研究一直是许多领域的研究热点,其中社区结构是复杂网络中的一个普遍特征,整个网络是由许多社区组成的。社区发现算法用来发现网络中的社区结构,也可以看作是一种聚类算法。通过社区发现算法,可将本发明实施例中更新后的邮件网络划分为多个社区。
步骤1023,对于每一社区,计算所述社区中敏感邮件的占比,若所述占比大于第二预设阈值,则判定所述社区为恶意社区。
需要说明的是,第二预设阈值根据邮件网络复杂度所预先设定,也可根据需保障和维护的信息安全等级所预先设定,本发明实施例对第二预设阈值的具体设定不作限定。若社区中敏感邮件的占比大于第二预设阈值,则判定该社区为恶意社区。
在上述实施例的基础上,本发明实施例对上述实施例中的社区发现算法进行进一步说明,所述社区发现算法为K-L算法、谱二分算法、GN算法或Newman快速算法。
具体地,K-L算法是一种将已知网络划分为已知大小的两个社区的二分方法,它是一种贪婪算法。
谱二分算法利用的是Laplace矩阵的特征值和特征向量的性质来做社区划分。
GN算法是一个基于删除边的算法,本质是基于聚类中的分裂思想,在原理上是使用边介数作为相似度的度量方法。
Newman快速算法为一种基于贪心的快速社区发现算法。
在上述实施例的基础上,本发明实施例对上述实施例中确定社区中敏感邮件的占比进行进一步说明,即,所述计算所述社区中敏感邮件的占比,包括:
确定所述社区中的已知邮件子集和缺失邮件子集。
具体地,社区中包括若干个节点,将这若干个节点间的所有往来的已知邮件作为已知邮件子集,将这若干个节点间的所有往来的缺失邮件作为缺失邮件子集。
对于所述已知邮件子集,将所述已知邮件子集中的每一封邮件的正文信息和/或附件信息与已知敏感信息进行比对,根据比对结果判定所述邮件是否为敏感邮件。
具体地,该步骤用于确定已知邮件子集中的敏感邮件,具体可以为:
对于已知邮件子集中的每一封邮件,将该邮件的正文信息和/或附件信息进行分词,并与已知敏感信息进行智能匹配,提取邮件中所出现的敏感词的次数,若次数大于第三预设阈值,则判定该邮件携带有敏感信息,并将该邮件确定为敏感邮件。需要说明的是,第三预设阈值可根据实际应用场景进行设定,本发明实施例对其设定不作具体限定。
对于所述缺失邮件子集中的每一封邮件,若判定所述邮件的邮件地址所关联的所有已知邮件中存在敏感邮件,则判定所述邮件为敏感邮件。
需要说明的是,由于缺失邮件中不存在正文信息和附件信息,因此无法通过上述的判定过程确定缺失邮件子集中的敏感邮件。
因此,本发明实施例通过如下步骤确定缺失邮件子集中的敏感邮件,具体为:
对于缺失邮件子集中的每一封邮件,该邮件的邮件地址都有两个,其一为发件地址,其二为收件地址,在发件地址所关联的所有已知邮件和收件地址所关联的所有已知邮件中,确定是否存在至少一封敏感邮件,若存在至少一封敏感邮件,则判定缺失邮件子集中的这封邮件为敏感邮件。
需要说明的是,发件地址所关联的所有已知邮件为该发件地址所发出和接收到的所有已知邮件,同理,收件地址所关联的所有已知邮件为该收件地址所发出和接收到的所有已知邮件。
计算所述已知邮件子集中邮件数量与所述缺失邮件子集中邮件数量的总和并作为第一数量,计算所述社区中所有敏感邮件的数量并作为第二数量,将所述第二数量与所述第一数量之比作为所述占比。
进而,根据敏感邮件的占比判定该社区是否为恶意社区。
图3为本发明实施例提供的一种邮件网络中恶意社区的确定系统的结构示意图,如图3所示,该系统包括:
缺失邮件集合确定模块301,用于基于SimRank算法,确定邮件网络中的缺失邮件集合;恶意社区确定模块302,用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
具体地,邮件网络为基于目标主机中存储的所有邮件所构建的网络,现有技术中通过判定该网络是否为恶意网络进而来保障和维护信息安全,但由于目标主机的硬件损毁或泄密者的反取证能力造成的数据缺失问题,造成判定结果不准确,从而不能够充分保障和维护信息安全。对此,本发明实施例提供的缺失邮件集合确定模块301,基于SimRank算法,确定邮件网络中的缺失邮件集合。其中,缺失邮件集合包括若干封缺失邮件,需要说明的是,每一封缺失邮件均为目标主机中存储的所有邮件之外的邮件,是由于目标主机的硬件损毁或泄密者的反取证能力造成的已缺失的邮件。本发明实施例提供的恶意社区确定模块302,通过已知邮件集合和缺失邮件集合确定模块301中确定的缺失邮件集合,能够判定邮件网络是否为恶意网络。
本发明实施例提供的系统,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,此处不再赘述。本发明实施例提供的系统,通过SimRank算法确定邮件网络中的缺失邮件集合来解决现有技术中的数据缺失问题,使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。
在上述实施例的基础上,本发明实施例提供的系统还包括:
邮件获取模块,用于获取目标主机中存储的所有邮件,组成所述已知邮件集合;
邮件网络构建模块,用于基于所述已知邮件集合,构建有向图G=(V,E)并作为所述邮件网络;其中,V={v1,...,vi,...,vn}为节点集合,vi代表第i个邮件地址,E={<v1,vi>,...,<vi,vj>,...,<vj,vn>}为有向边集合,<vi,vj>代表vi发送邮件至vj
需要说明的是,本发明实施例提供的系统中邮件获取模块和邮件网络构建模块的功能和作用在上述方法实施例中已详细说明,此处不再赘述。
综上,本发明实施例提供的一种邮件网络中恶意社区的确定方法及系统,对原生SimRank算法进行了改进,在将其应用到取证过程中后成功的实现了缺失邮件发现。并将缺失邮件并补充到根据已知邮件构建的邮件网络中,以确定该邮件网络中的恶意社区。使得判定过程能够基于完整的数据集,从而提高判定结果的准确性,充分保障和维护信息安全。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:基于SimRank算法,确定邮件网络中的缺失邮件集合;基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:基于SimRank算法,确定邮件网络中的缺失邮件集合;基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种邮件网络中恶意社区的确定方法,其特征在于,包括:
基于SimRank算法,计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率,根据所述概率确定邮件网络中的缺失邮件集合;
基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区;
其中,所述已知邮件集合为目标主机中存储的所有邮件所组成的集合;
所述基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区,包括:
基于所述缺失邮件集合,对所述邮件网络进行更新,生成更新后的邮件网络;
基于社区发现算法,将所述更新后的邮件网络划分为多个社区;
对于每一社区,计算所述社区中敏感邮件的占比,若所述占比大于第二预设阈值,则判定所述社区为恶意社区。
2.根据权利要求1所述的方法,其特征在于,所述基于SimRank算法,计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率,根据所述概率确定邮件网络中的缺失邮件集合,之前还包括:
获取目标主机中存储的所有邮件,组成所述已知邮件集合;
基于所述已知邮件集合,构建有向图G=(V,E)并作为所述邮件网络;其中,V={v1,...,vi,...,vn}为节点集合,vi代表第i个邮件地址,E={<v1,vi>,...,<vi,vj>,...,<vj,vn>}为有向边集合,<vi,vj>代表vi发送邮件至vj
3.根据权利要求2所述的方法,其特征在于,所述基于SimRank算法,计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率,根据所述概率确定邮件网络中的缺失邮件集合,包括:
对于所述邮件网络中不存在有向边的任意两个节点,根据以下公式判定所述任意两个节点间存在缺失邮件的概率R(vi,vj):
Figure FDA0002389917310000011
其中,c为常系数且0<c<1,|S(vi)|为vi发出的敏感邮件的数量,|S(vj)|为vj发出的敏感邮件的数量,N(vi)为vi的临域,N(vj)为vj的临域,p为N(vi)中的任一节点,q为N(vj)中的任一节点,R(p,q)为p、q间存在已知邮件的概率,|N(vi)|为vi发出和收到的所有邮件的数量,|N(vj)|为vj发出和收到的所有邮件的数量;
若所述概率大于第一预设阈值,则判定所述任意两个节点间存在缺失邮件;
将所述邮件网络中的所有缺失邮件,组成所述缺失邮件集合。
4.根据权利要求1所述的方法,其特征在于,所述社区发现算法为K-L算法、谱二分算法、GN算法或Newman快速算法。
5.根据权利要求1所述的方法,其特征在于,所述计算所述社区中敏感邮件的占比,包括:
确定所述社区中的已知邮件子集和缺失邮件子集;
对于所述已知邮件子集,将所述已知邮件子集中的每一封邮件的正文信息和/或附件信息与已知敏感信息进行比对,根据比对结果判定所述邮件是否为敏感邮件;
对于所述缺失邮件子集中的每一封邮件,若判定所述邮件的邮件地址所关联的所有已知邮件中存在敏感邮件,则判定所述邮件为敏感邮件;
计算所述已知邮件子集中邮件数量与所述缺失邮件子集中邮件数量的总和并作为第一数量,计算所述社区中所有敏感邮件的数量并作为第二数量,将所述第二数量与所述第一数量之比作为所述占比。
6.一种邮件网络中恶意社区的确定系统,其特征在于,包括:
缺失邮件集合确定模块,用于基于SimRank算法,计算邮件网络中不存在有向边的任意两个节点间缺失邮件的概率,根据所述概率确定邮件网络中的缺失邮件集合;
恶意社区确定模块,用于基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区;
其中,所述已知邮件集合为目标主机中存储的所有邮件所组成的集合;
所述基于所述缺失邮件集合和所述邮件网络中的已知邮件集合,确定所述邮件网络中的恶意社区,包括:
基于所述缺失邮件集合,对所述邮件网络进行更新,生成更新后的邮件网络;
基于社区发现算法,将所述更新后的邮件网络划分为多个社区;
对于每一社区,计算所述社区中敏感邮件的占比,若所述占比大于第二预设阈值,则判定所述社区为恶意社区。
7.根据权利要求6所述的系统,其特征在于,还包括:
邮件获取模块,用于获取目标主机中存储的所有邮件,组成所述已知邮件集合;
邮件网络构建模块,用于基于所述已知邮件集合,构建有向图G=(V,E)并作为所述邮件网络;其中,V={v1,...,vi,...,vn}为节点集合,vi代表第i个邮件地址,E={<v1,vi>,...,<vi,vj>,...,<vj,vn>}为有向边集合,<vi,vj>代表vi发送邮件至vj
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201910226024.1A 2019-03-25 2019-03-25 一种邮件网络中恶意社区的确定方法及系统 Active CN110138723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910226024.1A CN110138723B (zh) 2019-03-25 2019-03-25 一种邮件网络中恶意社区的确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910226024.1A CN110138723B (zh) 2019-03-25 2019-03-25 一种邮件网络中恶意社区的确定方法及系统

Publications (2)

Publication Number Publication Date
CN110138723A CN110138723A (zh) 2019-08-16
CN110138723B true CN110138723B (zh) 2020-05-12

Family

ID=67568918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910226024.1A Active CN110138723B (zh) 2019-03-25 2019-03-25 一种邮件网络中恶意社区的确定方法及系统

Country Status (1)

Country Link
CN (1) CN110138723B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579831B (zh) * 2020-11-18 2024-04-12 南京信息职业技术学院 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299729A (zh) * 2008-06-25 2008-11-05 哈尔滨工程大学 一种基于拓扑行为的垃圾邮件判定方法
CN102130973A (zh) * 2011-04-28 2011-07-20 沈阳工程学院 对电子邮件实施自动批量网络取证的系统和方法
CN102209075A (zh) * 2011-06-02 2011-10-05 国家计算机病毒应急处理中心 基于行为的恶意邮件发送节点检测方法
CN102833240A (zh) * 2012-08-17 2012-12-19 中国科学院信息工程研究所 一种恶意代码捕获方法及系统
CN102842078A (zh) * 2012-07-18 2012-12-26 南京邮电大学 一种基于社群特征分析的电子邮件取证分析方法
CN103490979A (zh) * 2013-09-03 2014-01-01 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN105096101A (zh) * 2015-07-06 2015-11-25 福州大学 基于lda模型及中心度算法的邮件网络取证分析方法
CN106330670A (zh) * 2016-08-18 2017-01-11 无锡云商通科技有限公司 基于邮件指纹对相同邮件进行判定的方法
CN108009933A (zh) * 2016-10-27 2018-05-08 中国科学技术大学先进技术研究院 图中心性计算方法及装置
CN108573741A (zh) * 2017-12-25 2018-09-25 北京金山云网络技术有限公司 业务数据记录方法、装置、设备和存储介质
US10133813B2 (en) * 2015-08-12 2018-11-20 Adobe Systems Incorporated Form value prediction utilizing synonymous field recognition
CN109033155A (zh) * 2018-06-13 2018-12-18 中国电子科技集团公司电子科学研究院 搜索邮件内容方法、装置、终端及存储介质
CN109150600A (zh) * 2018-08-14 2019-01-04 中国信息安全测评中心 一种电子邮件网络中节点关系的分析方法及系统
CN109151078A (zh) * 2018-10-31 2019-01-04 厦门市美亚柏科信息股份有限公司 一种分布式智能邮件分析过滤方法、系统及存储介质
CN109462540A (zh) * 2018-10-12 2019-03-12 彩讯科技股份有限公司 邮件存证方法、装置和系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299729A (zh) * 2008-06-25 2008-11-05 哈尔滨工程大学 一种基于拓扑行为的垃圾邮件判定方法
CN102130973A (zh) * 2011-04-28 2011-07-20 沈阳工程学院 对电子邮件实施自动批量网络取证的系统和方法
CN102209075A (zh) * 2011-06-02 2011-10-05 国家计算机病毒应急处理中心 基于行为的恶意邮件发送节点检测方法
CN102842078A (zh) * 2012-07-18 2012-12-26 南京邮电大学 一种基于社群特征分析的电子邮件取证分析方法
CN102833240A (zh) * 2012-08-17 2012-12-19 中国科学院信息工程研究所 一种恶意代码捕获方法及系统
CN103490979A (zh) * 2013-09-03 2014-01-01 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN105096101A (zh) * 2015-07-06 2015-11-25 福州大学 基于lda模型及中心度算法的邮件网络取证分析方法
US10133813B2 (en) * 2015-08-12 2018-11-20 Adobe Systems Incorporated Form value prediction utilizing synonymous field recognition
CN106330670A (zh) * 2016-08-18 2017-01-11 无锡云商通科技有限公司 基于邮件指纹对相同邮件进行判定的方法
CN108009933A (zh) * 2016-10-27 2018-05-08 中国科学技术大学先进技术研究院 图中心性计算方法及装置
CN108573741A (zh) * 2017-12-25 2018-09-25 北京金山云网络技术有限公司 业务数据记录方法、装置、设备和存储介质
CN109033155A (zh) * 2018-06-13 2018-12-18 中国电子科技集团公司电子科学研究院 搜索邮件内容方法、装置、终端及存储介质
CN109150600A (zh) * 2018-08-14 2019-01-04 中国信息安全测评中心 一种电子邮件网络中节点关系的分析方法及系统
CN109462540A (zh) * 2018-10-12 2019-03-12 彩讯科技股份有限公司 邮件存证方法、装置和系统
CN109151078A (zh) * 2018-10-31 2019-01-04 厦门市美亚柏科信息股份有限公司 一种分布式智能邮件分析过滤方法、系统及存储介质

Also Published As

Publication number Publication date
CN110138723A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
US11671434B2 (en) Abnormal user identification
RU2541123C1 (ru) Система и способ определения рейтинга электронных сообщений для борьбы со спамом
US10341373B2 (en) Automatically detecting insider threats using user collaboration patterns
US10623426B1 (en) Building a ground truth dataset for a machine learning-based security application
CN109120431B (zh) 复杂网络中传播源选择的方法、装置及终端设备
US10250550B2 (en) Social message monitoring method and apparatus
US20240193269A1 (en) Clustering and cluster tracking of categorical data
US11929969B2 (en) System and method for identifying spam email
US8700756B2 (en) Systems, methods and devices for extracting and visualizing user-centric communities from emails
CN110138723B (zh) 一种邮件网络中恶意社区的确定方法及系统
CN111258796A (zh) 服务基础设施以及在其处预测和检测潜在异常的方法
CN113572721B (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN117294497A (zh) 一种网络流量异常检测方法、装置、电子设备及存储介质
CN116309002B (zh) 图数据存储、访问、处理方法、训练方法、设备及介质
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
KR20210058533A (ko) 복수개의 커뮤니티를 포함하는 네트워크에서 커뮤니티 재구성 방법 및 이를 위한 전자 장치
CN112288528A (zh) 恶意社群发现方法、装置、计算机设备和可读存储介质
CN111127230A (zh) 动态社交圈确定方法、装置、设备及存储介质
CN112861034B (zh) 检测信息的方法、装置、设备和存储介质
CN117473331B (zh) 流数据处理方法、装置、设备及存储介质
WO2024045460A1 (zh) 节点确定方法及装置
JP7302668B2 (ja) レベル推定装置、レベル推定方法、および、レベル推定プログラム
CN117014173A (zh) 信息处理方法、装置、计算机设备和存储介质
CN117640572A (zh) 一种邮件检测方法、装置、电子设备及介质
CN112989432A (zh) 文件签名提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant