CN109328448B - 基于网络流数据的垃圾邮件分类系统 - Google Patents

基于网络流数据的垃圾邮件分类系统 Download PDF

Info

Publication number
CN109328448B
CN109328448B CN201780036348.8A CN201780036348A CN109328448B CN 109328448 B CN109328448 B CN 109328448B CN 201780036348 A CN201780036348 A CN 201780036348A CN 109328448 B CN109328448 B CN 109328448B
Authority
CN
China
Prior art keywords
spam
message
machine learning
service provider
network data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780036348.8A
Other languages
English (en)
Other versions
CN109328448A (zh
Inventor
O·卡施
P·纽曼
D·阿隆
E·勇姆-托维
H·纽沃斯
R·罗南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109328448A publication Critical patent/CN109328448A/zh
Application granted granted Critical
Publication of CN109328448B publication Critical patent/CN109328448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

在示例实施例中,一种计算机实现的方法包括:从与电子邮件服务提供商相关联的消息获得标记,其中该标记指示针对每个消息IP已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将标记和网络数据特征提供到机器学习应用;生成预测模型,该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法;将预测模型应用于针对无标记消息的网络数据特征;以及生成预测模型的输出,该输出指示无标记消息是垃圾邮件的可能性。

Description

基于网络流数据的垃圾邮件分类系统
背景技术
电子消息以及特别是电子邮件(email)越来越多地被用作用于向网络用户传播不想要的广告和促销(通常被标记为“垃圾邮件”)的手段。电子邮件还可以在恶意攻击中被滥用,诸如在拒绝服务攻击中向某一地址发送大量电子邮件,以及在钓鱼式攻击中试图获取敏感信息。
用于阻止垃圾邮件和恶意邮件的常用技术涉及对过滤系统的采用。在一种过滤技术中,数据从两类示例消息(例如,垃圾邮件消息和非垃圾邮件消息)的内容中被提取,并且过滤器被应用以在概率上在两类之间进行鉴别,这种类型的过滤器通常被称为“基于内容的过滤器”。这些类型的机器学习过滤器通常采用精确匹配技术来检测和区分垃圾邮件消息与好消息。
垃圾邮件发送者和恶意电子邮件创建者可以通过将他们的垃圾邮件消息修改为看起来像好消息或者在整个消息中包括各种错误字符以避开和/或混淆字符识别系统来欺骗常规的基于内容的过滤器。因此,这样的常规过滤器提供针对垃圾邮件和恶意消息的有限的保护。
在其他技术中,域名系统(DNS)黑洞列表(DNSBL)或实时黑洞列表(RBL)可以被参考以识别被认为发送电子邮件垃圾邮件的IP地址。电子邮件服务器可以被配置为拒绝或标记从这些列表上列出的网站发送的消息。遗憾的是,这些列表可能连同从共享的电子邮件服务器发送的垃圾邮件一起阻止合法电子邮件,并且可能难以从这些列表移除合法地址。
发明内容
提供本发明内容从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本发明内容不旨在确定要求保护的主题的关键元素或必要元素,也不旨在用于限制要求保护的主题的范围。
仅仅根据网络元数据来检测垃圾邮件是困难的任务,因为通信的内容不可获得。电子邮件服务提供商已经基于电子邮件内容检测到垃圾邮件消息,并且来自大量虚拟机的IPFIX数据在云服务网络中可获得。使用电子邮件服务提供商的垃圾邮件观察和云网络IPFIX数据作为机器学习分类器的输入,垃圾邮件分类估计器或算法可以通过对通用网络元数据特征进行训练来被创建,通用网络元数据特征诸如被寻址的外部IP、被寻址的外部端口、观察到的TCP标记、观察到的协议、等等。该训练可以揭示与垃圾电子邮件相关联的隐藏模式,并且可以动态地适应发送垃圾邮件的机器的通信模式的变化。
附图说明
为了进一步澄清本发明的实施例的以上和其他优点以及元素,将通过参考附图来呈现本发明的实施例的更具体描述。应认识到,这些附图仅描绘本发明的典型实施例并且因此不应被认为限制其范围。将使用附图以额外的特异性和细节来描述和解释本发明,在附图中:
图1是实现基于来自网络流数据的大规模特征提取的针对云的垃圾邮件分类系统的示例实施例的系统的高级框图。
图2是概述针对利用逻辑回归模型的示例实现方式的各种模型和特征组的结果的表。
图3是概述针对利用梯度增强树模型的示例实现方式的各种模型和特征组的结果的表。
图4是图示用于对垃圾邮件消息进行分类的示例计算机实现的方法的步骤的流程图。
具体实施方式
对云计算的采用中的加速增长已经使安全性既是挑战又是机会。云服务提供商可以具有对威胁局面的独特见解并且可以使用各种各样的数据源和技术来帮助客户防止威胁、检测威胁、以及对威胁做出响应。
为了针对云服务租户提供全局安全性,对于服务提供商而言重要的是向所有客户(包括未完全承认安全性的重要性的那些客户)提供基本安全保护。这允许服务提供商排除简单的攻击者,其正在搜索一般网络漏洞而非执行有目标的攻击。
通过分析在网络上共同地收集的网络流数据来实现一般保护层。这由于该数据的低边际成本是可能的,其不向用户要求额外的存储和额外的计算成本。在云系统中,网络业务的分组可以被采样并且以被称为互联网协议流信息导出(IPFIX)的协议格式来被收集。该数据包含连接的高级描述符,诸如源和目的IP地址和端口、协议类型、以及TCP标记的联合,但不是传输的实际分组。
该数据广泛可用于进入云服务网络和从云服务网络出来的所有网络通信以及可用于云服务上的所有客户订阅。然而,可用的信息可能对于许多应用来说太有限,这些应用诸如垃圾邮件检测,其中通信的内容保持关于该通信是恶意还是善意的关键信息。例如,观察到去往端口25(SMTP)的大量通信可能指示恶意发送垃圾邮件的活动,但是其还可能反映有效时事通讯系统。
如从采样的IPFIX数据确定的到端口25上的外部IP地址的通信的量可以在尝试识别从云发送的垃圾电子邮件时被使用。其他特征可以表示网络活动模式;然而,这也可以受特定云的各种提供影响,并且因此将在标记从电子邮件服务提供商可获得时被最佳地利用。
互联网服务的提供商在获得可以利用其来训练网络分析的各种信号和标记中具有很大优势。例如,电子邮件或网络邮件服务提供商可以在客户已经选择允许这样的访问的情况下并且在其他隐私关注被解决的情况下具有对电子邮件消息的内容的访问。这使电子邮件服务提供商有可能准确地在垃圾邮件消息与非垃圾邮件消息之间进行区分并且相应地标记分组。
利用来自这些额外源的信息可以通过应用机器学习分析来增强对网络流数据的预测。例如,该分析允许云服务提供商检测云服务网络上的受危害的机器。在示例情形中,从电子邮件收集的垃圾邮件标记可以用于检测云服务网络中的垃圾邮件发送虚拟机(VM)或其他发送垃圾邮件的主机。
包括标记的信誉数据集可以从源自于云服务网络的电子邮件生成,其中标记针对云服务网络上的每个IP地址被提供并且指示从每个地址接收的垃圾邮件消息和非垃圾邮件消息的数量。为了管理这些标记,针对其接收十个或更少消息的所有IP地址和相关联的数据可以从数据集被丢弃。最终数据集优选地包含被指定为肯定(即,垃圾邮件)或否定的大量样本。
大量标记允许采取通用特征生成方法。稀疏特征矩阵可以类似于词袋(bag-of-words)方法被提取。该矩阵表示针对特定日期上的每个部署的直方图、归一化的直方图、以及针对其到达的外部IP地址以及端口中的每一个的二进制存在表示以及使用的TCP标记。该通用方法产生重大优势,因为其允许系统动态地适应可能产生的新攻击方案,由此延长系统的预期寿命。
机器学习软件,诸如具有逻辑损失和二次特征提取的VowpalWabbit,可以被用于探索稀疏特征矩阵中的各种特征组合的贡献。最小一乘法(L1)和最小二乘法(L2)损失函数以及针对肯定类和否定类的不同权重的不同组合可以由机器学习软件使用。这些模型可以与使用以下两个基于知识的特征在相同标记上训练的基准模型进行比较:到端口25(SMTP)的通信的总量和该通信占所有部署活动的分数(fraction)。本领域技术人员将理解,现在已知的或稍后开发的任何机器学习软件都可以被使用,诸如梯度增强树模型或改进的深度学习方法。
图1是实现基于来自网络流数据的大规模特征提取的针对云的垃圾邮件分类系统的示例实施例的系统的高级框图。云服务提供商托管云服务网络或分布式计算系统101上的租户/客户。云服务网络101包括许多服务器102,每个服务器托管多个虚拟机(VM)103。服务器102还可以托管数据库、网页、或者其他应用。VM 103可以使用电子邮件或网络邮件提供商104将电子邮件发送到目的服务器或计算机105。发送到VM 103和服务器102的、和从VM103和服务器102发送的消息经由路由器106通过云服务网络101被路由到服务器105上的IP地址和端口。
通过云服务网络101路由的消息包括元数据,诸如与源或目的VM或服务器、TCP标记等等相关联的IP地址和端口。云服务提供商可以通过查看传递通过路由器106的分组或者查看其他观察点、并且将分组信息浓缩成捕获关于分组的信息的流记录(诸如以IPFIX文件格式)来收集基于流的元数据。该信息可以由云服务提供商存储在诸如IPFIX数据库107中。
一个或多个VM 103可以正在发送垃圾电子邮件。这可以因为VM被相关联的租户配置为这么做或者因为病毒/恶意软件正在租户不知情的情况下在VM上运行而发生。对VM103发送垃圾邮件的这样的使用通常违反了云服务提供商的服务条款。然而,出于隐私和安全性原因,云服务提供商通常不会或者不能检查被路由到每个VM 103/从每个VM 103路由的分组内容或者电子邮件的有效载荷,并且因此不能执行传统的基于内容的垃圾邮件识别。
电子邮件/网络邮件提供商104通常具有识别由其客户的账户发送和发送到其客户的账户的垃圾邮件的多种方式,诸如通过检查电子邮件内容(如果,例如由客户选择或者由服务条款允许),通过应用算法,等等。这允许电子邮件/网络邮件提供商将客户的电子邮件识别为垃圾邮件或非垃圾邮件。这样的信息可以被存储在信誉数据库108或其他存储单元中。如果电子邮件/网络邮件提供商104将特定VM103识别为垃圾电子邮件的源,则其可以通知云服务提供商。如果云服务提供商能够从网络数据识别垃圾电子邮件而无需访问消息内容,则其将是优选的。此外,如果云提供商能够检测来自网络的所有外出垃圾邮件而不仅仅是到达网络邮件提供商的部分,则其将是更好的。
机器学习可以用于确定特定网络数据集是垃圾邮件与否的可能性。在服务器109上运行的机器学习应用从IPFIX数据库107接收电子邮件元数据特征110的集合。这些特征可以包括例如目的和/或源IP地址、目的和/或源端口、消息的数量、流的数量、TCP标记、等等。机器学习应用还从电子邮件/网络邮件提供商信誉数据库108接收数据,诸如针对许多消息的IP地址、时间、以及标记的列表,其中标记对应于个体消息是被识别为垃圾邮件还是非垃圾邮件的判定。信誉数据库数据应当包括网络印记,网络印记包括用于训练的肯定(即,垃圾邮件)和否定(即,非垃圾邮件)数据两者。机器学习应用将两个数据集之间的IP地址相关联,并且构建包括预测给定的网络IPFIX数据集合是否是垃圾邮件的算法。预测模型112可以根据网络流量的样本来被生成,并且不要求所有网络流量被分析。
例如,预测模型112可以经由云管理门户113被提供到云服务提供商。云服务提供商可以之后将预测模型应用于来自未来电子邮件消息的网络数据,诸如从路由器106收集的网络数据。预测模型允许云服务提供商识别潜在的垃圾邮件而无需访问消息内容。当VM103被识别为发送垃圾邮件时,云服务提供商可以通知或者警告VM客户或者租户。备选地,云服务提供商可以隔离或关闭发送垃圾邮件的VM103。
系统还可以允许自动重新训练模型。这将允许预测模型自动适应与垃圾邮件相关联的新网络模式。例如,在垃圾电子邮件的新源被识别时,信誉数据库108可以随时间被更新和改变。机器学习应用服务器109可以使用来自信誉数据库108的经更新的IP/时间/标记数据,来创建新的或经更新的预测模型112。
图2是概述针对使用逻辑回归模型的示例实现方式的各种模型和特征组的结果的表。图3是概述针对使用梯度增强树模型的示例实现方式的各种模型和特征组的结果的表。图2和图3中的表图示使用5重交叉验证(均值±标准差,mean±std)在各个特征分组上的性能评价。特征包括端口25、外部IP地址、外部端口以及TCP标记,包括通过端口25发送的消息的计数、分数(frac)、以及针对每一个的二进制端口号。该表列出曲线下面积(AUC)评价度量。每行图示针对逻辑模型中的选定特征集(x)的AUC和正确肯定(TP)。机器学习模型仅仅在从其观察到去往端口25的外出通信的VM上被使用。这将降低训练集与测试集之间的偏差,其将降低性能。
对于图2中图示的逻辑回归模型,评价中观察到的最佳模型使用所有TCP标记特征以及二进制端口号特征,连同二进制特征的二次乘积(xq)。基准模型在1%的错误肯定(FP)比率处达到44%的正确肯定比率,而改进的模型在相同错误肯定比率处达到56%的正确肯定比率。备选地,在梯度增强树模型中,观察到的最佳模型使用相同的TCP标记特征以及外部IP地址的二进制特征。
对于图3中图示的梯度增强树模型,针对十个样本或更少样本出现的所有特征被过滤掉,并且之后TLC在其默认配置中与梯度增强树算法一起被使用,以探索各种特征组合的贡献。这些模型与使用以下两个基于知识的特征在相同标记上被训练的基准模型进行比较:到端口25(SMTP)的通信的总量和该通信占所有部署活动的分数。由于该模型中的特征的较少数量,其利用20个树而非100个树来被训练。
图3列出探索的各种特征组合。独立特征(IP地址、端口、TCP标记)的每个集合首先被独立地探索,并且之后最佳选项与特征的其余部分进行组合。最佳模型使用全部TCP标记特征,以及二进制外部IP地址特征。基准模型在1%的错误肯定(FP)比率处达到55%的正确肯定(TP)比率,而改进的模型在相同FP比率处达到81%的TP比率。
具有其通用可用性的IPFIX数据对于向云服务网络的租户提供基本安全层面是高度有价值的。然而,其内容非常有限,并且可能在攻击的关键信息驻存于通信的内容中而非简洁网络模式的情况下导致不准确的预测。如本文所指出的,在不同服务之间共享的数据可以增加有价值的信息以帮助识别不太明显的网络模式。
根据网络IPFIX数据来检测垃圾邮件是困难的任务,因为通信的实际内容不可获得。垃圾电子邮件可能已经由邮件服务提供商基于邮件内容被检测到。来自许多虚拟机(VM)的IPFIX数据在云服务网络中可获得。使用这些相当大的检测作为针对分类器的特征源(其使用IPFIX数据作为输入)允许在通用特征上的训练,通用特征诸如寻址的所有外部端口、观察到的所有TCP标记、等等。这可以揭示与垃圾邮件和其他恶意电子邮件相关联的隐藏模式,并且可以动态地适应发送垃圾邮件的机器的通信模式的变化。
对于每种数据类型(即,外部IP地址、外部端口号、TCP标记、协议),提取包含以下项的稀疏矩阵:
-每个值的流计数(也可以是样本计数),
-二进制值(即,在存在时为1),
-计数占虚拟机的所有通信的分数。
标记可以从服务提供商的电子邮件或网络邮件服务被获得,其中该标记指示针对每个IP已经接收到多少垃圾邮件消息和非垃圾邮件消息。具有少于最小数量的消息(例如,少于十个消息)的IP地址可以被过滤。对于剩余部分,如果消息中的任何消息是垃圾邮件,则与该IP相关联的虚拟机被标记为发送垃圾邮件。这些特征和标记可以被馈送到分类算法(诸如,例如使用逻辑损失的Vowpal Wabbit,可能具有对权重的L1和L2正则化,梯度增强树,等等)中,并且经训练的学习器被用于根据IPFIX数据来预测垃圾邮件。
图4是图示用于对垃圾邮件消息进行分类的示例计算机实现的方法的步骤的流程图。在步骤401中,来自与电子邮件服务提供商相关联的消息的标记被获得。该标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息。在步骤402中,来自云服务提供商的网络数据特征被获得。网络数据特征可以对应于IPFIX数据或者可以包括电子邮件元数据。
在步骤403中,标记和网络数据特征被提供到机器学习应用。机器学习应用可以是例如具有分类算法的经训练的学习器,分类算法用于根据从网络数据特征创建的稀疏矩阵来预测垃圾邮件。在步骤404中,预测模型被生成,以表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。
在步骤405中,将预测模型应用于针对无标记消息的网络数据特征。在步骤406中,预测模型的输出被生成,以指示无标记消息是垃圾邮件的可能性。如果无标记消息中的任何无标记消息被识别为垃圾邮件,则与消息的IP地址相关联的虚拟机可以被标记为发送垃圾邮件。
在步骤407中,从与电子邮件服务提供商相关联的消息获得经更新的标记集合。在步骤408中,基于经更新的标记集合来重新训练预测模型。
一种示例计算机实现的方法包括:从与电子邮件服务提供商相关联的消息获得标记,其中该标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将标记和网络数据特征提供到机器学习应用;以及生成预测模型,该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。
在其他实施例中,该计算机实现的方法还包括:将预测模型应用于针对无标记消息的网络数据特征;以及生成预测模型的输出,该输出指示无标记消息是垃圾邮件的可能性。
在其他实施例中,该计算机实现的方法还包括:从与电子邮件服务提供商相关联的消息获得经更新的标记集合;以及基于经更新的标记集合来重新训练预测模型。
在其他实施例中,如果无标记消息中的任何无标记消息被识别为垃圾邮件,则该计算机实现的方法还包括将与消息的IP地址相关联的虚拟机标记为发送垃圾邮件。
在该方法的其他实施例中,机器学习应用是具有分类算法的经训练的学习器,该分类算法用于根据从网络数据特征创建的稀疏矩阵来预测垃圾邮件。
在该方法的其他实施例中,网络数据特征对应于IPFIX数据。
在该方法的其他实施例中,网络数据特征包括电子邮件元数据。
在该方法的其他实施例中,来自与电子邮件服务提供商相关联的消息的标记被存储为信誉数据集。
一种示例机器学习服务器包括:一个或多个处理器;以及一个或多个计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令当由一个或多个处理器执行时使处理器:从与电子邮件服务提供商相关联的消息获得标记,其中该标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将标记和网络数据特征提供到机器学习应用;以及生成预测模型,该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。
在额外的实施例中,服务器还包括进一步使处理器进行以下操作的计算机可执行指令:将预测模型应用于针对无标记消息的网络数据特征;以及生成预测模型的输出,该输出指示无标记消息是垃圾邮件的可能性。
在额外的实施例中,服务器还包括进一步使处理器进行以下操作的计算机可执行指令:从与电子邮件服务提供商相关联的消息获得经更新的标记集合;以及基于经更新的标记集合来重新训练预测模型。
在额外的实施例中,服务器还包括进一步使处理器进行以下操作的计算机可执行指令:将预测模型转发到云管理应用,以用于在云服务上识别发送垃圾邮件的机器。
在额外的实施例中,机器学习应用是具有分类算法的经训练的学习器,该分类算法用于根据从网络数据特征创建的稀疏矩阵来预测垃圾邮件。
在额外的实施例中,网络数据特征对应于IPFIX数据。
在额外的实施例中,网络数据特征包括电子邮件元数据。
在额外的实施例中,来自与电子邮件服务提供商相关联的消息的标记被存储为信誉数据集。
另一种示例方法包括:接收预测模型,该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法,其中该预测模型根据来自与电子邮件服务提供商相关联的消息的标记和来自云服务提供商的网络数据特征而被生成,将预测模型应用于针对无标记消息的网络数据特征;以及生成预测模型的输出,该输出指示无标记消息是垃圾邮件的可能性。
在该方法的其他实施例中,标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息。
在该方法的其他实施例中,该预测模型由机器学习应用基于来自与电子邮件服务提供商相关联的消息的标记和来自云服务提供商的网络数据特征来生成。
尽管已经以特定于结构特征和/或方法动作的语言描述了本主题,但是将要理解在所附权利要求中限定的主题不必限于以上描述的特定特征或动作。相反,以上描述的特定特征和动作被公开为实现权利要求的示例形式。

Claims (20)

1.一种用于至少在电子邮件服务提供商和云服务提供商之间共享数据以便在不访问垃圾邮件消息内容的情况下识别网络垃圾邮件消息模式的计算机实现的方法,所述方法包括:
从与电子邮件服务提供商相关联的消息获得标记,其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;
从云服务提供商获得网络数据特征;
将所述标记和所述网络数据特征提供到机器学习应用,其中所述机器学习应用识别与所述标记相关联的IP地址和与所述网络数据特征相关联的IP地址之间的相关性,所述相关性被用于促进所述机器学习应用生成预测模型,以检测生成垃圾邮件消息的、发送垃圾邮件的主机;
生成所述预测模型,所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法;以及
在尚未被表征为垃圾邮件或非垃圾邮件的无标记消息由所述云服务提供商的计算设备生成之后,并且在所述无标记消息在所述云服务提供商的路由器处被接收到准备用于向接收方计算设备发送之后,将所述预测模型应用于所述无标记消息,以确定所述无标记消息是垃圾邮件还是非垃圾邮件,
其中来自所述云服务提供商的所述网络数据特征包括生成所述无标记消息的所述计算设备与所述接收方计算设备之间的连接的描述符。
2.根据权利要求1所述的计算机实现的方法,还包括:
生成所述预测模型的输出,所述输出指示所述无标记消息是垃圾邮件的可能性。
3.根据权利要求1所述的计算机实现的方法,还包括:
从与所述电子邮件服务提供商相关联的消息获得经更新的标记集合;以及
基于所述经更新的标记集合来重新训练所述预测模型。
4.根据权利要求1所述的计算机实现的方法,其中驻留在所述计算设备上的虚拟机生成所述无标记消息,并且其中所述方法还包括:
当所述无标记消息被识别为垃圾邮件时,将所述虚拟机标记为发送垃圾邮件。
5.根据权利要求1所述的计算机实现的方法,其中所述机器学习应用是具有分类算法的经训练的学习器,所述分类算法用于根据从所述网络数据特征创建的稀疏矩阵来预测垃圾邮件。
6.根据权利要求1所述的计算机实现的方法,其中所述网络数据特征对应于IPFIX数据。
7.根据权利要求1所述的计算机实现的方法,其中所述网络数据特征包括电子邮件元数据。
8.根据权利要求1所述的计算机实现的方法,其中来自与电子邮件服务提供商相关联的消息的所述标记被存储为信誉数据集。
9.一种机器学习服务器,包括:
一个或多个处理器;
一个或多个计算机可读硬件存储设备,其上存储有计算机可执行指令,所述计算机可执行指令可由所述一个或多个处理器执行,以使所述机器学习服务器:
从与电子邮件服务提供商相关联的消息获得标记,其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;
从云服务提供商获得网络数据特征;
将所述标记和所述网络数据特征提供到机器学习应用,其中所述机器学习应用识别与所述标记相关联的IP地址和与所述网络数据特征相关联的IP地址之间的相关性,所述相关性被用于促进所述机器学习应用生成预测模型,以检测生成垃圾邮件消息的发送垃圾邮件的主机;
生成所述预测模型,所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法;以及
在尚未被表征为垃圾邮件或非垃圾邮件的无标记消息由所述云服务提供商的计算设备生成之后,并且在所述无标记消息在所述云服务提供商的路由器处被接收到准备用于向接收方计算设备发送之后,将所述预测模型应用于所述无标记消息,以确定所述无标记消息是垃圾邮件还是非垃圾邮件,
其中来自所述云服务提供商的所述网络数据特征包括生成所述无标记消息的所述计算设备与所述接收方计算设备之间的连接的描述符。
10.根据权利要求9所述的机器学习服务器,其中所述计算机可执行指令的执行还使所述机器学习服务器:
生成所述预测模型的输出,所述输出指示所述无标记消息是垃圾邮件的可能性。
11.根据权利要求9所述的机器学习服务器,其中所述计算机可执行指令的执行还使所述机器学习服务器:
从与所述电子邮件服务提供商相关联的消息获得经更新的标记集合;以及
基于所述经更新的标记集合来重新训练所述预测模型。
12.根据权利要求9所述的机器学习服务器,其中所述计算机可执行指令的执行还使所述机器学习服务器:
将所述预测模型转发到云管理应用,以用于在云服务上识别发送垃圾邮件的机器。
13.根据权利要求9所述的机器学习服务器,其中所述机器学习应用是具有分类算法的经训练的学习器,所述分类算法用于根据从所述网络数据特征创建的稀疏矩阵来预测垃圾邮件。
14.根据权利要求9所述的机器学习服务器,其中所述网络数据特征对应于IPFIX数据。
15.根据权利要求9所述的机器学习服务器,其中所述网络数据特征包括电子邮件元数据。
16.根据权利要求9所述的机器学习服务器,其中来自与所述电子邮件服务提供商相关联的所述消息的所述标记被存储为信誉数据集。
17.根据权利要求9所述的机器学习服务器,其中所述描述符包括描述以下一项或多项的信息:(i)源IP地址和目的IP地址、(ii)源端口和目的端口、(iii)协议类型、或(iv)TCP标志的联合。
18.根据权利要求9所述的机器学习服务器,其中所述描述符被包括作为基于流的元数据,并且其中所述计算机可执行指令的执行还使所述机器学习服务器:
将所述基于流的元数据浓缩成捕获关于所述消息的数据的流记录。
19.一种用于在不同服务之间共享数据以识别网络垃圾邮件模式的计算机实现的方法,所述方法包括:
接收预测模型,所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法,其中:
所述预测模型是从来自与电子邮件服务提供商相关联的消息和来自云服务提供商的网络数据特征的标记生成的,
所述预测模型由机器学习应用生成,所述机器学习应用识别与所述标记相关联的IP地址和与所述网络数据特征相关联的IP地址之间的相关性,并且
所述相关性促进所述机器学习应用生成所述预测模型,以检测生成垃圾邮件消息的、发送垃圾邮件的主机;
在尚未被表征为垃圾邮件或非垃圾邮件的无标记消息由所述云服务提供商的计算设备生成之后,并且在所述无标记消息在所述云服务提供商的路由器处被接收到准备用于向接收方计算设备发送之后,将所述预测模型应用于所述无标记消息,以确定所述无标记消息是垃圾邮件还是非垃圾邮件,
生成所述预测模型的输出,所述输出指示所述无标记消息是垃圾邮件的可能性,
其中来自所述云服务提供商的所述网络数据特征包括生成所述无标记消息的所述计算设备与所述接收方计算设备之间的连接的描述符,所述描述符包括描述源和目的IP地址、源端口和目的端口、协议类型、以及TCP标志的联合的信息。
20.根据权利要求19所述的计算机实现的方法,其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件和非垃圾邮件消息。
CN201780036348.8A 2016-06-13 2017-06-08 基于网络流数据的垃圾邮件分类系统 Active CN109328448B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662349450P 2016-06-13 2016-06-13
US62/349,450 2016-06-13
US15/365,008 2016-11-30
US15/365,008 US10397256B2 (en) 2016-06-13 2016-11-30 Spam classification system based on network flow data
PCT/US2017/036460 WO2017218269A1 (en) 2016-06-13 2017-06-08 Spam classification system based on network flow data

Publications (2)

Publication Number Publication Date
CN109328448A CN109328448A (zh) 2019-02-12
CN109328448B true CN109328448B (zh) 2021-02-19

Family

ID=60574262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780036348.8A Active CN109328448B (zh) 2016-06-13 2017-06-08 基于网络流数据的垃圾邮件分类系统

Country Status (4)

Country Link
US (1) US10397256B2 (zh)
EP (1) EP3469770B1 (zh)
CN (1) CN109328448B (zh)
WO (1) WO2017218269A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10257591B2 (en) 2016-08-02 2019-04-09 Pindrop Security, Inc. Call classification through analysis of DTMF events
US10353973B2 (en) * 2016-08-19 2019-07-16 Flipboard, Inc. Domain ranking for digital magazines
US10375090B2 (en) * 2017-03-27 2019-08-06 Cisco Technology, Inc. Machine learning-based traffic classification using compressed network telemetry data
US11276015B2 (en) * 2017-04-20 2022-03-15 Capital One Services, Llc Machine learning artificial intelligence system for predicting hours of operation
US10511615B2 (en) * 2017-05-05 2019-12-17 Microsoft Technology Licensing, Llc Non-protocol specific system and method for classifying suspect IP addresses as sources of non-targeted attacks on cloud based machines
US11062226B2 (en) 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element
US10922627B2 (en) 2017-06-15 2021-02-16 Microsoft Technology Licensing, Llc Determining a course of action based on aggregated data
US10503580B2 (en) 2017-06-15 2019-12-10 Microsoft Technology Licensing, Llc Determining a likelihood of a resource experiencing a problem based on telemetry data
US10944766B2 (en) * 2017-09-22 2021-03-09 Microsoft Technology Licensing, Llc Configurable cyber-attack trackers
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
US11477222B2 (en) * 2018-02-20 2022-10-18 Darktrace Holdings Limited Cyber threat defense system protecting email networks with machine learning models using a range of metadata from observed email communications
CN110428019B (zh) * 2019-08-09 2023-04-21 绵阳德川鸿丰环保科技有限公司 垃圾智能分类方法及模块化智能垃圾分类处理系统
US11552914B2 (en) * 2019-10-06 2023-01-10 International Business Machines Corporation Filtering group messages
CN112688852A (zh) * 2019-10-18 2021-04-20 上海越力信息科技有限公司 一种基于深度学习的电子邮件管理系统及方法
US11862177B2 (en) * 2020-01-27 2024-01-02 Pindrop Security, Inc. Robust spoofing detection system using deep residual neural networks
US11507860B1 (en) 2020-02-24 2022-11-22 Rapid7, Inc. Machine learned inference of protocols from banner data
WO2021178675A1 (en) 2020-03-05 2021-09-10 Pindrop Security, Inc. Systems and methods of speaker-independent embedding for identification and verification from audio
CN111404805B (zh) * 2020-03-12 2022-11-22 深信服科技股份有限公司 一种垃圾邮件检测方法、装置、电子设备及存储介质
CN111970251A (zh) * 2020-07-28 2020-11-20 西安万像电子科技有限公司 数据处理方法及服务器
US11411905B2 (en) * 2020-10-29 2022-08-09 Proofpoint, Inc. Bulk messaging detection and enforcement
US11888870B2 (en) 2021-10-04 2024-01-30 Microsoft Technology Licensing, Llc Multitenant sharing anomaly cyberattack campaign detection
CN114501348B (zh) * 2021-12-21 2024-04-23 恒安嘉新(北京)科技股份公司 受诈用户的联合监测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573784A (zh) * 2003-06-04 2005-02-02 微软公司 用于阻止垃圾邮件的源/目的地的特征和列表
CN1809821A (zh) * 2003-03-03 2006-07-26 微软公司 用于防止垃圾邮件的反馈循环
CN1991879A (zh) * 2005-12-29 2007-07-04 腾讯科技(深圳)有限公司 一种垃圾邮件的过滤方法
CN101014020A (zh) * 2006-02-03 2007-08-08 国际商业机器公司 用于识别垃圾电子邮件的方法和系统
CN101699432A (zh) * 2009-11-13 2010-04-28 黑龙江工程学院 基于排序策略的信息过滤系统
US8069210B2 (en) * 2008-10-10 2011-11-29 Microsoft Corporation Graph based bot-user detection
WO2015100538A1 (en) * 2013-12-30 2015-07-09 Nokia Technologies Oy Method and apparatus for malware detection

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8984640B1 (en) * 2003-12-11 2015-03-17 Radix Holdings, Llc Anti-phishing
US9609015B2 (en) * 2008-05-28 2017-03-28 Zscaler, Inc. Systems and methods for dynamic cloud-based malware behavior analysis
US9374374B2 (en) 2012-06-19 2016-06-21 SecureMySocial, Inc. Systems and methods for securing social media for users and businesses and rewarding for enhancing security
US8769677B2 (en) 2012-07-12 2014-07-01 Telcordia Technologies, Inc. System and method for spammer host detection from network flow data profiles
US9143476B2 (en) 2012-09-14 2015-09-22 Return Path, Inc. Real-time classification of email message traffic
US20140279243A1 (en) * 2013-03-15 2014-09-18 Ebay Inc. Crowd sourcing and machine learning based size mapper
US20140379420A1 (en) * 2013-03-15 2014-12-25 Rocket Science LLC Methods and Systems for Finding Connections Among Subscribers to an Email Campaign
US9633203B2 (en) * 2013-09-12 2017-04-25 Cellco Partnership Spam notification device
WO2015066604A1 (en) 2013-11-04 2015-05-07 Crypteia Networks S.A. Systems and methods for identifying infected network infrastructure
US9237161B2 (en) * 2013-12-16 2016-01-12 Morphick, Inc. Malware detection and identification
US9609018B2 (en) * 2014-05-08 2017-03-28 WANSecurity, Inc. System and methods for reducing impact of malicious activity on operations of a wide area network
US9942182B2 (en) 2014-11-17 2018-04-10 At&T Intellectual Property I, L.P. System and method for cloud based IP mobile messaging spam detection and defense
IN2014MU04068A (zh) * 2014-12-18 2015-06-05 Cyberoam Technologies Pvt Ltd
US10116674B2 (en) * 2015-10-30 2018-10-30 Citrix Systems, Inc. Framework for explaining anomalies in accessing web applications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809821A (zh) * 2003-03-03 2006-07-26 微软公司 用于防止垃圾邮件的反馈循环
CN1573784A (zh) * 2003-06-04 2005-02-02 微软公司 用于阻止垃圾邮件的源/目的地的特征和列表
CN1991879A (zh) * 2005-12-29 2007-07-04 腾讯科技(深圳)有限公司 一种垃圾邮件的过滤方法
CN101014020A (zh) * 2006-02-03 2007-08-08 国际商业机器公司 用于识别垃圾电子邮件的方法和系统
US8069210B2 (en) * 2008-10-10 2011-11-29 Microsoft Corporation Graph based bot-user detection
CN101699432A (zh) * 2009-11-13 2010-04-28 黑龙江工程学院 基于排序策略的信息过滤系统
WO2015100538A1 (en) * 2013-12-30 2015-07-09 Nokia Technologies Oy Method and apparatus for malware detection

Also Published As

Publication number Publication date
CN109328448A (zh) 2019-02-12
EP3469770B1 (en) 2021-05-19
US10397256B2 (en) 2019-08-27
US20170359362A1 (en) 2017-12-14
EP3469770A1 (en) 2019-04-17
WO2017218269A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
CN109328448B (zh) 基于网络流数据的垃圾邮件分类系统
US10218740B1 (en) Fuzzy hash of behavioral results
Ho et al. Detecting and characterizing lateral phishing at scale
Coulter et al. Data-driven cyber security in perspective—Intelligent traffic analysis
US10735458B1 (en) Detection center to detect targeted malware
Shbair et al. A multi-level framework to identify HTTPS services
Torabi et al. Detecting Internet abuse by analyzing passive DNS traffic: A survey of implemented systems
Fette et al. Learning to detect phishing emails
CN113474776A (zh) 用于实时检测,表征,和补救基于电子邮件的威胁的威胁检测平台
US11985142B2 (en) Method and system for determining and acting on a structured document cyber threat risk
US20230007042A1 (en) A method and system for determining and acting on an email cyber threat campaign
US11765192B2 (en) System and method for providing cyber security
JP2018506808A (ja) ネットワークデータ特性評価のシステムと方法
Stringhini et al. {B@ bel}: Leveraging Email Delivery for Spam Mitigation
US8938508B1 (en) Correlating web and email attributes to detect spam
Manyumwa et al. Towards fighting cybercrime: Malicious url attack type detection using multiclass classification
CN109039874B (zh) 一种基于行为分析的邮件审计方法及装置
Calais et al. A campaign-based characterization of spamming strategies
Surwade Phishing e-mail is an increasing menace
KR101535503B1 (ko) 상용 이메일 기반 악성코드 감염단말 탐지 방법
Althobaiti et al. Using Clustering Algorithms to Automatically Identify Phishing Campaigns
Gangabissoon et al. Improving effectiveness of honeypots: predicting targeted destination port numbers during attacks using J48 algorithm
Shukla et al. Spoofed Email Based Cyberattack Detection Using Machine Learning
Gautam et al. Phishing Prevention Techniques: Past, Present and Future
Rathod et al. Detecting Email Spam with Precision: A Logistic Regression Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant