CN112567707A - 用于生成和部署动态虚假用户账户的增强技术 - Google Patents

用于生成和部署动态虚假用户账户的增强技术 Download PDF

Info

Publication number
CN112567707A
CN112567707A CN201980052957.1A CN201980052957A CN112567707A CN 112567707 A CN112567707 A CN 112567707A CN 201980052957 A CN201980052957 A CN 201980052957A CN 112567707 A CN112567707 A CN 112567707A
Authority
CN
China
Prior art keywords
fake
real
user account
false
data files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980052957.1A
Other languages
English (en)
Other versions
CN112567707B (zh
Inventor
B·M·韦尔科克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN112567707A publication Critical patent/CN112567707A/zh
Application granted granted Critical
Publication of CN112567707B publication Critical patent/CN112567707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本文所描述的技术促进生成和部署动态虚假用户账户。本文所公开的实施例获取可用于用消息和/或数据文件动态地填充虚假用户账户的虚假租户模型。不是仅包含一组静态文档,而是还用新文档连续地填充“动态”虚假用户账户。这导致动态虚假用户账户与真实用户账户几乎没有区别,该真实用户账户在它们被账户所有者用来执行合法的业务活动时被连续地填充新的真实电子邮件消息和/或新的真实托管文件。本文所描述的动态虚假用户账户的逼真性质显著降低了恶意实体将用户账户标识为本质上虚假的能力。

Description

用于生成和部署动态虚假用户账户的增强技术
背景技术
存在着用于部署虚假计算资源的各种计算机安全机制,该虚假计算资源模仿合法的“用户拥有的”计算资源,以便吸引恶意的计算活动。例如,除了在执行核心业务活动中使用的一组合法的用户拥有的电子邮件账户外,组织还可以部署一组通常看起来合法但没有敏感业务信息的虚假电子邮件账户。然后,组织可以利用用于登录这些虚假电子邮件账户的证书来“播种”各种资源,以诱骗恶意实体(例如,黑客、网络钓鱼活动者、行业间谍等)花费时间和资源仔细研究虚假电子邮件账户。以这种方式,恶意实体可能被欺骗而泄露某些类型的信息,这些信息对于标识和防止对组织的合法计算资源的未来攻击很有用。此外,恶意实体被欺骗而花费在登录到虚假计算资源上的任何时间实质上浪费了恶意实体无法花费在攻击合法的计算资源上的时间。
不幸的是,现代的虚假计算资源易于被恶意实体检测到。例如,现代的虚假电子邮件账户或文件托管账户将仅包含一组静态文档(例如,电子邮件、托管文件等)。此外,现代的虚假电子邮件账户不会对消息进行响应或以其他方式与恶意实体进行交互。在标识出特定的计算资源是虚假的计算资源后,恶意实体立即注销并且不再返回。如果恶意实体迅速认识到计算资源的虚假性质,那么与虚构实体消耗的资源相比,组织可能花费了显著更多的资源来建立虚假的计算资源。
鉴于这些和其他考虑,提出了本文所做出的公开。
发明内容
本文所描述的技术促进生成和部署动态虚假用户账户。总体而言,本文所公开的实施例获取可以用于用消息和/或数据文件动态地填充虚假用户账户的虚假租户模型。因此,不是仅包含一组静态文档,而是用新文档(例如,电子邮件、托管文件等)连续地填充“动态”虚假用户账户。这导致动态虚假用户账户与真实用户账户几乎没有区别,因为随着账户所有者使用它们来执行合法的业务活动,该真实用户账户连续地填充有新的真实电子邮件消息和/或新的真实托管文件。本文所描述的动态虚假用户账户的现实性质显著降低了恶意实体将用户账户标识为虚假性质的能力。因此,与本质上是静态的传统虚假用户账户相比,本文所描述的动态虚假用户账户更适合诱骗恶意实体保持登录状态——从而延长了可观察到恶意实体行为的时间段以及浪费的恶意实体的时间量。
本文所描述的技术的实现提高了关于敏感的组织资源的计算安全性。例如,出于防止易受攻击的计算资源(例如,用户账户和用户设备)受损害的特定技术目的,各种实现被设计为隔离恶意代码(例如,恶意用户接口(UI)控件)使其无法到达真实用户账户和真实用户设备。关于这一点,可以意识到,在许多情况下,网络钓鱼电子邮件和/或其他恶意通信包含病毒(例如勒索软件)。因此,与传统的“静态”虚假用户账户相比,实现实际上与真实用户账户没有区别的动态虚假用户账户诱骗了来自恶意实体的大量交互。可以意识到,这样大量的交互促进收集有关恶意实体使用的攻击策略和恶意软件的其他信息——从而阻止了此类攻击策略和恶意软件的未来使用。
此外,将意识到的是,通过隔离来自已知恶意实体的通信以使它们不到达真实用户账户,所描述的技术专门涉及执行对计算机病毒、蠕虫以及其他恶意代码与易受攻击的计算资源(例如,用户账户、用户设备等)的隔离和根除。这减轻了来自已知恶意实体(例如,恶意网络钓鱼电子邮件诈骗)的通信所带来的安全风险,进而显著减少了重新获得受损害的用户设备和/或用户账户的安全性所需的计算资源和人力资源。为了说明这一点,考虑一旦网络钓鱼者获得了对特定真实用户账户的访问,网络钓鱼者通常会立即更改与此特定真实用户账户相关联的用户证书,从而实质上将该账户的真实合法所有者封锁在外面。然后,通常将大量的计算资源分配给复杂的安全系统,以便重新获得对真实用户账户的控制。由于本文所述的新颖的虚假用户账户的动态性质欺骗恶意实体泄露有关其攻击策略和(多个)恶意代码的重要细节,因此本文所描述的技术显著提高了组织防止真实计算资源受到损害的能力。
在一些实现中,系统接收文本的语料库,该文本的语料库包括展现出某些性质的一组数据文件。作为示例,系统可以以对真实用户账户(诸如例如,真实电子邮件账户和/或真实文件托管账户)的一个或多个组件的选择的形式接收文本的语料库。附加地或备选地,系统可以接收通常与特定行业(例如,银行、软件等)和/或技术空间(例如,软件、车辆自主性等)相关的业务文档形式的文本的语料库。系统可以分析文本的语料库以标识由一组数据文件所展现出的性质,从而可以生成展现相同和/或相似性质但缺少恶意实体可能正在寻找的真实敏感信息的虚假数据文件。
在一些实现中,文本的语料库可以被提供给语料库分析应用,该语料库分析应用可以利用各种人工智能(AI)技术来标识由该组数据文件展现出的性质。作为特定示例,语料库分析应用可以利用包括多层长短期记忆(LSTM)单元的递归神经网络(RNN)来分析文本的语料库并确定各种性质。关于可以确定的文本的语料库的性质,语料库分析应用可以确定在文本的语料库内使用的词汇和/或语法结构。词汇可以包括在语料库中找到的个体单词的列表及其对应的使用频率。语法结构可以是基础结构或主题,词汇的各个个体单词与之一起被汇编在文本的语料库中,以便传达概念和/或信息。
基于文本的语料库的性质,系统可以生成虚假租户模型,该虚假租户模型可以用于生成本质上是虚假的并且展现出所分析的文本的语料库的性质的其他数据文件。例如,如果文本的语料库包括从一个或多个真实收件箱和/或真实发件箱获取的多封电子邮件,那么虚假租户模型可以用于生成展现出与一个或多个真实收件箱和/或真实发件箱相关联地观察到的相似性质的其他个体电子邮件。然而,尽管看起来与所分析的一组“真实”数据文件相似,但是由虚假租户模型生成的数据文件是虚构的数据文件,并且因此对于对其获得访问的恶意实体没有实际价值。例如,所生成的文件可能看起来像是真的电子邮件文档——尽管是由计算系统而不是由实际人员生成的。所生成的文件的真实性质欺骗查看所生成的文件的恶意实体相信所生成的伪造的数据文件真的是包含潜在有价值信息的真实数据文件。
在生成后,系统可以部署虚假租户模型,以用一组虚假数据文件填充虚假用户账户,该组虚假数据文件看起来像是真实且合法的,但是没有真实价值。例如,虚假用户账户可以是看起来像是真实电子邮件账户的电子邮件账户,并且甚至可以用于发送和/或接收电子邮件。然而,虚假用户账户实际上并未被指派给真实用户,而是被设计为吸引恶意实体,以观察其计算习惯、浪费其时间和/或提取有关新的和/或不断演化的网络钓鱼活动的附加细节。可以意识到,在一些情况下,这种虚假用户账户在各种行业和/或上下文中可以被通俗地称为“蜜罐”型用户账户。
系统可以从正由恶意实体操作的计算设备接收对虚假用户账户的访问请求。为了本讨论的目的,这种计算设备在本文中可以被称为网络钓鱼者设备。网络钓鱼者设备可以是膝上型计算机或某种其他类型的个人计算设备。在一些实现中,该请求可以包括与虚假用户账户相关联的证书。如本文所述,可以在种子响应中传送证书,以引诱恶意实体(例如,恶意网络钓鱼者和/或行业间谍)访问正在用和/或已经用经由虚假租户模型生成的数据文件填充的虚假用户账户。
然后,系统可以通过向网络钓鱼者设备供应对已经由虚假租户模型生成的虚假用户账户及其中的数据文件的访问来对请求进行响应。以这种方式,恶意实体能够登录到虚假用户账户,虚假用户账户继而又为恶意实体提供虚假印象,即已经获得了对被用来进行真实业务的真实用户账户的访问。在一些实施例中,虚假租户模型可以被用来周期性地生成新文件并将新文件添加到虚假用户账户中。以这种方式,恶意实体可以被登录到虚假用户账户,并且可以实时地见证电子邮件被发送和/或接收,从而给人以真实用户同时登录甚至使用虚假用户账户的印象。本文所描述的动态虚假用户账户的逼真性质显著降低了恶意实体将用户账户标识为本质上虚假的能力。
在一些实现中,在请求内包括的证书可以包括真实别名(例如,指派给真实用户账户的电子邮件别名)和欺骗陷阱密码的组合,其供应了对虚拟用户账户的访问代替对真实用户账户的访问。用欺骗陷阱密码登录到虚假用户账户可以以给人正在被登录真实用户账户的印象供应对虚假用户账户的访问。例如,如果真实用户账户对应于steve@enterprisedomain.com的真实用户别名,那么提供欺骗陷阱密码以及steve@enterprisedomain.com别名可以以欺骗恶意实体以为他们被登录到真实用户账户为steve@enterprisedomain.com的方式而供应对虚假用户账户的访问。
应当意识到,上述主题还可以被实现为计算机控制的装置、计算机过程、计算系统或诸如计算机可读介质之类的制品。通过阅读以下详细说明并查看相关附图,这些和各种其他特征将变得显而易见。
本发明内容被提供来以简化的形式介绍将在下面的详细描述中进一步描述的一些概念。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,本发明内容也不旨在被用来限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。
附图说明
参照附图描述详细描述。在附图中,引用标号的(多个)最左边的数字标识该引用标号首次出现的附图。不同图中相同的引用标号指示相似或相同的项目。对多个项目中的个体项目的引用可以使用带有字母序列中的字母的引用标号来指代每个个体项目。对项目的通用引用可以使用不带字母序列的特定引用标号。
图1是被配置为部署机器学习引擎以分析文本语料库以生成可用于利用消息和/或数据文件填充虚假租户的虚假租户模型的说明性计算环境的示意图。
图2是被配置为部署机器学习引擎以分析文本语料库以生成虚假租户模型的说明性计算环境的示意图。
图3是一种用于通过门房来路由访问请求以基于包括在访问请求内的证书来选择性地供应对虚假用户账户或真实用户账户的访问的系统。
图4例示出了一种系统,该系统用于标识被设计来欺诈性地获取敏感信息的消息(例如,网络钓鱼消息)并生成伪造的敏感信息以污染与网络钓鱼活动相关联的响应数据。
图5例示出了一种系统,该系统用于使得真实用户能够将消息指定为网络钓鱼尝试,以部署人工智能(AI)技术来生成模拟响应,从而引诱网络钓鱼者进入对话循环。
图6是用于供应对虚假用户账户的访问的示例性过程的流程图,该虚假用户账户填充有基于虚假租户模型所生成的虚假数据文件。
图7示出了能够执行本文所描述的技术的计算机的示例计算机架构的附加细节。
具体实施方式
以下具体实施方式描述了用于生成和部署动态虚假用户账户的技术。在各种实现中,虚假用户账户填充有多组虚假数据文件,该多组虚假数据文件被生成以展现出类似于先前分析的一组真实数据文件的性质。以这种方式,假数据文件以真实数据文件进行建模(例如,模仿),但是不包含如果虚假数据文件被获取则可能被恶意实体(例如,网络钓鱼者、行业间谍等)利用的敏感的真实信息。
总体上描述,各种实施例获取虚假租户模型,该虚假租户模型可以用于用消息和/或数据文件动态填充虚假用户账户。因此,不是仅仅包含一组静态文档,而是用新文档(例如,电子邮件、托管文件等)连续地填充“动态”虚假用户账户。这会导致动态虚假用户账户看起来与真实用户账户几乎没有区别,该真实用户账户随着它们被账户所有者用来执行合法的业务活动而连续填充有新的真实电子邮件消息和/或新的真实托管文件。
本文所描述的动态虚假用户账户的逼真性质显著降低了恶意实体将用户账户标识为虚假性质的能力。因此,与本质上是静态的传统虚假用户账户相比,本文所描述的动态虚假用户账户更适合诱骗恶意实体保持登录状态——从而延长了可观察到恶意实体行为的时间段以及浪费的恶意实体的时间量。
本文所描述的技术的实现提高了关于敏感的组织资源的计算安全性。例如,出于防止易受攻击的计算资源(例如,用户账户和用户设备)受损害的特定技术目的,各种实现被设计为隔离恶意代码(例如,恶意用户接口(UI)控件)使其无法到达真实用户账户和真实用户设备。关于这一点,可以意识到,在许多情况下,网络钓鱼电子邮件和/或其他恶意通信包含病毒(例如勒索软件)。因此,与传统的“静态”虚假用户账户相比,实施实际上与真实用户账户没有区别的动态虚假用户账户诱骗了来自恶意实体的大量交互。可以意识到,这样大量的交互支持收集有关恶意实体使用的攻击策略和恶意软件的其他信息——从而阻止了此类攻击策略和恶意软件的未来用户。
现在转向图1,例示出了用于部署机器学习引擎102以分析文本的语料库142以生成虚假租户模型110的系统100,该虚假租户模型110可以用于用虚假数据文件140(诸如例如虚假电子邮件、虚假文字处理文档等)填充虚假租户130。在所例示的实现中,虚假租户模型110被用来周期性地生成新的电子邮件消息并将这些新生成的电子邮件消息添加到虚假用户账户132的虚假“电子邮件”收件箱134。以这种方式,当恶意实体(例如,使用如本文中其他地方所述的种子响应中所获取的证书)登录虚假用户账户132时,将看起来好像虚假用户账户132当时实际上正被使用。例如,从恶意实体的角度来看,新的电子邮件消息类型的虚假数据文件140将周期性地在虚假收件箱134和/或虚假发件箱136中被接收——从而使它看起来好像真实用户实际上登录虚假用户帐户132并从虚假用户帐户132进行业务。
如所例示,系统100可以包括一个或多个租户服务器112,其被设计为实现一个或多个真实租户120。这些真实租户120中的个体可以对应于个体企业(例如,商企、政府组织、教育机构组织等),并且可以包括一个或多个真实用户账户122。例如,特定商企可以购买对真实租户120(例如,由MICROSOFT提供的OFFICE 365租户、由GOOGLE提供的G SUITE租户等等)的订阅,并且特定商企内的租户管理员可以发起(设立)并管理针对特定商企的个体员工的真实用户账户122。
可以向个体用户(例如,员工)指派真实用户证书,其使得个体用户能够经由一个或多个用户设备访问其真实用户账户122。作为特定但非限制性的示例,真实用户证书可以包括电子邮件别名(例如,steve@enterprisedomain.com)和真实用户密码。个体用户可以通过经由与租户服务器112相关联的特定网页输入这些证书来登录其真实用户账户122。在成功登录其对应的真实用户账户122后,可以向用户提供对各种资源的访问,诸如例如电子邮件账户(例如GMAIL和/或OUTLOOK账户)和/或文件托管账户(例如GOOGLE DRIVE和/或OUTLOOK)。
如其他例示的,租户服务器112可以包括安全性过滤器114,以分析消息并过滤出网络钓鱼消息,该网络钓鱼消息被设计成欺诈性地欺骗用户以提供各种类型的敏感信息。例如,如所例示,消息410从网络钓鱼者计算机系统402被传送到租户服务器112,该消息在此处被安全性过滤器114接收。为了安全地处理网络钓鱼消息,租户服务器112可以实现引爆室116,其被设计为促进在受保护的环境中操纵个体消息的各个方面。例如,引爆室116可以是隔离的计算环境,诸如例如将真实租户120及其真实用户账户122与引爆室116内发生的任何计算活动隔离开的容器和/或轻量级虚拟机。这些方面将在下面关于图4和图5更详细地描述。
在所例示的示例中,虚假租户模型110由机器学习引擎102创建,然后被提供给租户服务器112以进行连续部署。可以通过从一个或多个真实租户120接收文本的语料库142来创建虚假租户模型110。文本的语料库142可以是与一个或多个真实用户账户122相关联地保存的数据的所选部分。如所例示,真实用户账户122可以包括真实收件箱124、真实发件箱126和/或真实托管文件128中的一个或多个。真实收件箱124可以对应于被寻址到特定电子邮件别名的传入电子邮件被存储在其中的存储位置。真实发件箱126可以对应于从特定电子邮件别名发送的传出邮件的副本被存储在其中的存储位置。真实托管文件128可以对应于其中与真实用户账户122相对应的账户所有者能够存储数据文件(诸如例如文本文档、电子表格、幻灯片演示等等)的存储位置。应该意识到,个体真实用户账户122可以各自具有个体对应的真实收件箱124、真实发件箱126以及一组真实托管文件128。
如本文中所使用的,当在修饰名词的形容词的上下文中使用时,术语“虚假”通常是指被故意制造以欺骗实体的所标示项目(例如,用户账户、响应、信用卡号、用户证书等),其看起来是所标示项目的真的实例。例如,为了欺骗网络钓鱼实体的目的而被创建的、并且利用不是由人类用户而是由机器学习模型(例如,虚假租户模型)生成的项目(例如,电子邮件、数据文件等)填充的用户账户在本文中可以适当地被称为虚假用户账户。作为另一个示例,由本文所描述的响应引擎生成然后被传送到网络钓鱼实体以稀释和/或污染响应数据的响应可以被适当地描述为虚假响应。如本文中所使用的,当在修饰名词的形容词的上下文中使用时,术语“真实”通常是指所标示项目是所标示项目的真的实例。例如,可以将实际上被指派给组织的人类员工并由其使用的用户账户适当地描述为真实用户账户。
在一些实施例中,文本的语料库142可以包括一个或多个真实收件箱124、真实发件箱126和/或多组真实托管文件128。例如,真实租户120的管理员可以选择要被用作文本的语料库142的一组个体真实用户账户122。换句话说,构成文本的语料库142的一组数据文件可以是从一个或多个所选择的真实用户账户122收集的真实数据文件。
在一些实现中,一个或多个虚假租户130可以分别对应于一个或多个真实租户120,并且被用来填充(多个)虚假租户130的(多个)虚假租户模型110可以基于由一个或多个真实租户120提供的“真实”数据文件来生成。以这种方式,被最终生成来填充特定虚假租户130的虚假用户账户132的消息和/或数据文件实际上可能源自于从与虚假租户130对应的特定真实租户120的真实用户账户122获取的文本的语料库142。例如,订阅真实租户120的特定企业可以提供对其真实用户账户122中的一个或多个的访问,以被用作文本的语料库142。可以意识到,在这样的实施例中,实际消息和/或由虚假租户模型110生成的数据文件(其基于由特定真实租户120提供的文本的语料库142而被生成)可以对网络钓鱼者326看起来像真的业务数据。
如所例示,文本的语料库142可以被提供给机器学习引擎102,并且更具体地,被提供给由机器学习引擎102实现的语料库分析应用104。在由机器学习引擎102部署以分析文本的语料库142时,语料库分析应用104可以利用一种或多种机器学习技术来确定文本的语料库142的各种性质。作为特定但非限制性的示例,语料库分析应用104可以利用递归神经网络(RNN)以确定文本的语料库142的各种性质。示例性RNN可以包括多层长短期记忆(LSTM)单元106,以分析文本的语料库142并确定各种性质。
关于可以被确定的文本的语料库142的性质,语料库分析应用104可以确定在文本的语料库142内使用的词汇和/或语法结构。词汇可以包括在文本的语料库142中找到的个体单词的列表及其在文本的语料库142中的对应使用频率。语法结构可以是基础结构或主题,利用其,词汇的各个个体单词被汇编在文本的语料库142中,以便传达概念和/或信息。
基于针对文本的语料库142所确定的性质,语料库分析应用104可以生成虚假租户模型110,该虚假租户模型110可以用于生成新的虚假数据文件140,该文件在结构上类似于被包括在文本的语料库142内的那些——但其对任何获取对其的访问的恶意实体来说都是虚构的且没有实际价值。在一些实施例中,随着时间的流逝,这些生成的虚假数据文件140被周期性地生成和/或添加到虚假用户账户132。例如,如所例示,第一虚假数据文件140(1)在第一时间T1被传送到虚假用户账户132,而第N虚假数据文件140(N)在第N时间TN被传送到虚假用户账户132——其在第一次T1之后。以这种方式,虚假用户账户132随着时间的流逝不断变化——就像实际正被使用的真实用户账户132一样。
在一些实施例中,虚假租户模型110被设计为根据在文本的语料库142内标识的活动的模式、利用新的虚假数据文件140填充虚假租户账户132。例如,虚假租户模型110可以使“生成的”虚假电子邮件消息以与在典型的业务日过程中“真实”电子邮件消息被发送到真实收件箱124的速率相似的速率被发送到虚假收件箱。此外,在非高峰时间、非业务时间和/或假日期间,此类活动可能会减慢或停止。类似地,活动的模式可以关于真实发件箱126和/或真实托管文件128而被标识,并且可以被并入到虚假租户模型110中。以这种方式,“已发送的”电子邮件消息被填充到虚假发件箱136中的频率可能类似于(多个)真实用户在典型业务日过程中实际发送消息的频率。附加地或备选地,还可以类似地调制将数据文件添加到一组真实托管文件128的频率。
在一些实施例中,系统100可以实现网络钓鱼活动报告器118,该网络钓鱼活动报告器118被配置为向真实租户120报告某些类型的网络钓鱼活动。例如,网络钓鱼活动报告器118可以监测交互数据,该交互数据指示发生在网络钓鱼者设备和虚假用户账户之间的计算活动。然后,基于交互数据,网络钓鱼活动报告器118可以确定恶意实体是否看起来像是追求敏感信息但对从特定租户专门获取敏感数据没有特别兴趣或浓厚兴趣的普通“商品(commodity)”类型的网络钓鱼者。例如,交互数据可以对应于恶意实体登录到虚假用户账户132,该虚假用户账户132对恶意实体看起来像是由steve@enterprisedomain.com拥有的。一旦登录上,恶意实体就可能下载与虚假用户账户132相关联的虚假联系人信息,而不浏览和/或阅读存储在该账户中的各种特定文档。在这些情形下,网络钓鱼活动报告器118可以将恶意实体分类为普通“商品”类型的网络钓鱼者,并将网络钓鱼活动报告给一个或多个真实租户120。
备选地,一旦登录上,恶意实体就可能开始快速浏览和/或下载各种虚假文档(例如,伪造的电子邮件消息、伪造的数据文件、伪造的工程图等)。可以意识到,这种类型的活动可以指示恶意实体对获取有关特定目标业务的敏感细节特别感兴趣。在这些备选情形下,网络钓鱼活动报告器118可以将网络钓鱼者分类为“行业间谍”类型的网络钓鱼者,并将网络钓鱼活动报告给专门针对的真实租户120。以这种方式,真实业务可以部署看起来包括对其竞争对手有价值的信息的虚假用户账户132,从而用来吸引恶意竞争对手访问这些账户。然后,当真实业务实际上被此类竞争对手作为目标时,他们可以快速获悉正在进行的威胁并采取适当的安全措施。可以意识到,这样的账户可以被通俗地称为“蜜罐”账户或简称为“蜜罐”。
在某些情形中,系统100使得与个体真实租户120相关联的人员能够提供租户定义的参数108,这些参数规定了如何针对虚假用户账户132生成虚假数据文件140和/或其他内容的各个方面。在一些实现中,租户定义的参数108可以规定在虚假租户模型110所生成的任何文档中包括和/或省略特定的单词和/或短语。作为特定但非限制性的示例,与真实租户120相关联的租户管理员可能会认识到,由于主要产品的发布在内部代号为“RENO”,因此该单词将频繁出现在文本的语料库142中。通常,这可能会触发虚假租户模型110生成也包括这个单词的文档。但是,为了进一步掩蔽其内部操作并保护此代号以免被恶意实体从外部标识,租户定义的参数108可以限制该单词被使用在被添加到基于该特定真实租户120的(多个)虚假用户账户132的任何文档中。
附加地或备选地,租户定义的参数108可以包括针对特定的虚假数据文件140和/或由虚假租户模型110生成的数据文件的文件名。例如,假设业务处于开发产品的新版本的过程中。租户管理员可以重命名伪造的电子邮件和/或托管文档以包括此产品的名称。以这种方式,如果恶意实体获得对虚假用户账户132的访问并开始读取和/或下载被故意命名以指示其与产品的关系的文件,则网络钓鱼活动报告器118可以报告该活动以通知租户管理员:潜在的行业间谍活动正在发生。
现在转向图2,例示出了被配置为部署机器学习引擎102以分析文本的语料库142以生成虚假租户模型110的说明性计算环境200的示意图。最终,虚假租户模型110可以被(多个)租户服务器112利用,以如本文所描述的用虚假数据文件140填充虚假用户账户132。
在一些实施例中,机器学习引擎102可以基于与一个或多个真实用户账户122相关联地存储的和/或在一个或多个真实用户账户122之间传送的多组真实数据文件210来生成虚假租户模型110。例如,如所例示,第一账户所有者202(1)至第N账户所有者202(N)可以在执行其合法的业务功能期间传送一个或多个电子邮件。这些消息可以在组织内被传送(例如,在订阅真实租户120的组织的员工之间)或者可以在组织外部被传送(例如,从组织的员工到第三方供应商,反之亦然)。因此,可以意识到,在一些实现中,文本的语料库142可以由与真实租户120相关联地存储和/或生成的一组真实数据文件210组成。附加地或备选地,文本的语料库142可以由并非特定于特定真实租户120的一组数据文件(例如,信件、电子邮件、工程印刷品、电子表格、税务文件等)组成。例如,文本的语料库142可以包括作为库存数据文件206的一部分数据文件,其可以被重复使用来针对多个不同的真实租户120生成虚假租户模型110。
在一些实施例中,机器学习引擎102可以使用“深度学习”型机器学习算法来生成虚假租户模型110,该算法利用了处理单元的各层的顺序布置。在示例性实现中,顺序布置包括多层非线性处理单元的序列,其中每个连续层可以使用来自前一层的输出作为输入。
在特定但非限制性的示例中,语料库分析应用可以利用递归神经网络(RNN),该递归神经网络包括多层长短期记忆(LSTM)单元,以分析文本的语料库并确定由一组数据文件所展现出的各种性质。例如,语料库分析应用可以确定在文本的语料库内使用的词汇和语法结构。词汇可以包括在语料库中找到的个体单词的列表及其对应的使用频率。语法结构可以是基础结构或主题,词汇的各个个体单词利用其在文本的语料库中被汇编在一起,以便传达概念和/或信息。用笼统且简单的术语来说,机器学习引擎102可以利用具有LSTM单元层的RNN来学习在文本的语料库142中说/写的语言。附加地或备选地,还可以利用其他机器学习技术,诸如无监督学习、半监督学习、分类分析、回归分析、聚类等。也可以利用一个或多个预测模型,诸如组数据处理方法、朴素贝叶斯、k近邻算法、多数分类器、支持向量机、随机森林、增强树、分类和回归树(CART)、神经网络、普通最小二乘法等。
在所例示的示例中,机器学习引擎102还可以利用租户定义的参数108来生成虚假租户模型110。例如,与个体真实租户120相关联的人员可以提供租户定义的参数108,这些参数规定了如何为虚假用户账户132生成虚假数据文件140和/或其他内容的各个方面。租户定义的参数108可以规定在虚假租户模型110所生成的任何文档中包括和/或省略特定的单词和/或短语。作为特定但非限制性的示例,与真实租户120相关联的租户管理员204可能会认识到,由于主要产品的发布在内部代号为“RENO”,因此该单词将频繁出现在文本的语料库142中。通常,这可能会触发虚假租户模型110生成也包括这个单词的文档。但是,为了进一步掩蔽其内部操作并保护此代号以免被恶意实体从外部标识,租户定义的参数108可以限制该单词被使用在被添加到基于该特定真实租户120的(多个)虚假用户账户132的任何文档中。
基于文本的语料库142和租户定义的参数108(如果提供了的话),机器学习引擎102生成虚假租户模型110,以利用消息和/或数据文件动态地填充虚假用户账户。在某些实现中,可能会用新文档(例如电子邮件、托管文件等)连续地填充“动态”虚假用户账户,从而看起来与真实用户账户几乎没有区别,该真实用户账户在它们被账户所有者用来执行合法的业务活动时被连续填充有新的真实电子邮件消息和/或新的真实托管文件。本文所描述的动态虚假用户账户的逼真性质显著降低了恶意实体将用户账户标识为本质上虚假的能力。因此,与本质上是静态的常规虚假用户账户相比,本文所描述的动态虚假用户账户更适合诱骗恶意实体保持登录状态——从而延长了可观察到恶意实体行为的时间段以及浪费的恶意实体的时间量。
在一些实现中,机器学习引擎102可以连续地和/或周期性地分析针对特定真实租户120的附加真实数据文件210,以连续地和/或周期性地更新特定地与特定真实租户120对应的特定虚假租户130。以这种方式,被生成用于填充虚假租户130的虚假用户账户132的虚假数据文件将非常类似于当前和/或最近与真实租户120相关联地生成的真实数据文件210。
现在转向图3,例示出了系统300,该系统300用于通过门房302来路由访问请求304,以基于包括在访问请求304内的证书来选择性地供应对虚假用户账户132或真实用户账户122的访问。出于本讨论的目的,假定(多个)租户服务器112支持与真实用户别名306和账户所有者密码308相对应的真实用户账户122。真实用户别名306可以是与真实用户账户122相对应的电子邮件地址。账户所有者密码308可以是账户所有者202提供的字母和/或数字的字母数字序列,以接收对真实用户账户122的完全访问312。作为特定示例,真实用户别名306可以是“steve@enterprisedomain.com”的电子邮件地址并且账户所有者密码308可以是“12345”。因此,如所例示,账户所有者202可以生成包括“steve@enterprisedomain.com”的真实用户别名306和“12345”的账户所有者密码308的第一访问请求304(1)。然后,借助正确包括真实别名306连同账户所有者密码308的第一访问请求304(1),门房302可以向账户所有者202授予对真实用户账户122和/或真实租户120所支持的其他计算资源的完全访问312。
对照而言,第二访问请求304(2)可以包括与虚假租户130相关联的证书。例如,如所例示,第二访问请求304(2)包括真实用户别名306连同欺骗陷阱密码310。欺骗陷阱密码310可以是字母和/或数字的特定字母数字序列,用以指示门房302提供虚假访问314以欺骗恶意实体322相信对真实租户120的完全访问312已被授予。例如,虚假访问314可以使从其传送了第二访问请求304(2)的计算设备呈现填充有虚假数据文件140的虚假收件箱134和/或虚假发件箱138。
在一些实现中,系统300的一个或多个组件可以监测网络钓鱼者设备与虚假用户账户132之间发生的交互,以收集关于恶意实体所使用的攻击策略和恶意软件的附加信息——从而阻止此类攻击策略和恶意软件的未来用户。如所例示,例如,交互数据318正从网络钓鱼者设备324被传送到虚假用户账户132。示例性交互数据318可以包括与网络钓鱼活动、由恶意实体322使用的恶意软件相关联的信息,和/或由恶意实体322所针对的特定类型的信息。可以意识到,在生成交互数据318的同时,恶意实体322可能相信虚假用户账户132实际上是与真实用户别名306相对应的真实用户账户122(例如,steve@enterprisedomain.com的电子邮件账户)。
如本文所述,虚假租户模型110可以被用来生成伪造的文档、伪造的电子邮件和/或伪造的联系人(例如,伪造的电子邮件别名)。该生成的内容可以被用来填充虚假用户账户132,从而使其看起来是真实用户账户(即,真实用户出于业务目的而积极利用的用户账户)。在一些实施例中,虚假访问314可以被设计成使电子邮件看上去正被传送到这些伪造的联系人和/或从这些伪造的联系人传送电子邮件——全部在恶意实体322(例如,网络钓鱼者)被登录到虚假用户账户132的同时。例如,虚假租户模型110可以被用来在一段时间内用所接收和/或所发送的邮件连续地填充收件箱和/或发件箱。以这种方式,当恶意实体322被登录到虚假用户账户132时,给人的印象是一些真实用户也同时被登录并且当前正在使用该账户发送和/或接收电子邮件——尽管应该意识到,实际上没有这样的真实用户存在。在一些实施例中,由恶意实体322从虚假用户账户132“发送”的电子邮件消息可以显示在发件箱中。此外,在一些实现中,由恶意实体322“发送”的电子邮件可以被传送到响应引擎,以触发虚假响应和/或种子响应,如下所述。
在一些实施例中,系统300可以实现网络钓鱼活动报告器118,该网络钓鱼活动报告器118被配置为向真实租户120报告某些类型的网络钓鱼活动。例如,网络钓鱼活动报告器118可以监测发生在网络钓鱼者设备和虚假用户账户之间的交互数据。然后,基于交互数据,网络钓鱼活动报告器118可以确定恶意实体是否看起来像是追求敏感信息但对从特定租户专门获取敏感数据没有特别兴趣或浓厚兴趣的普通“商品”类型的网络钓鱼者。例如,一旦被登录上,恶意实体就可能下载与虚假用户账户132相关联的虚假联系人信息,而不浏览和/或阅读存储在该账户中的各种特定文档。在这些情形下,网络钓鱼活动报告器118可以将恶意实体分类为普通“商品”类型的网络钓鱼者,并将网络钓鱼活动报告给一个或多个真实租户120。备选地,一旦登录,恶意实体就可能开始快速浏览和/或下载各种虚假文档(例如,伪造的电子邮件消息、伪造的数据文件、伪造的工程图等)。可以意识到,这种类型的活动可以指示恶意实体对获取有关特定目标业务的敏感细节特别感兴趣。在这些备选情形下,网络钓鱼活动报告器118可以将网络钓鱼者分类为“行业间谍”类型的网络钓鱼者,并将网络钓鱼活动报告给被专门针对的真实租户120。
以这种方式,真实业务可以部署看起来包括对其竞争对手有价值的信息的虚假用户账户132,从而可以吸引恶意竞争对手访问这些账户。然后,当真实业务实际上被此类竞争对手作为目标时,他们可以快速获悉正在进行的威胁并采取适当的安全措施。可以意识到,这样的账户可以被通俗地称为“蜜罐”账户或简称为“蜜罐”。基于对交互数据318的分析,网络钓鱼活动报告器118可以生成网络钓鱼活动报告326,并将其发送给与真实租户120相关联的租户管理员204和/或账户所有者202。
在一些实施例中,(多个)租户服务器112可以通过将安全性软件316传送到网络钓鱼者计算设备324来响应第二访问请求304(2)和/或由恶意实体322在被登录到虚假用户账户132时执行的特定活动。安全性软件316可以被配置为监测恶意实体322在网络钓鱼者设备324上执行的计算活动。附加地或备选地,安全性软件316可以被配置为监测网络钓鱼者设备324的一个或多个标识特征(例如,屏幕尺寸、驱动器配置等)。此类技术的实现可以由执法机构来实现和/或与执法机构合作实现。
作为特定示例,虚假用户账户132可以填充有由账户所有者202和/或租户管理员204专门命名的一个或多个虚假数据文件140,以给人以是高度专有信息的印象。例如,如果组织正在开发流行的智能手机的高度专有的新版本,则可以将一个或多个虚假数据文件140填充到虚假用户账户132中并以看起来像包含与流行的智能手机的高度专有的新版本相关联的秘密细节的方式来进行命名。然后,如果恶意实体322使用欺骗陷阱密码310登录到虚假用户账户132,然后尝试下载看起来像包含专有信息的虚假数据文件,则安全性软件316可以被传送到网络钓鱼者设备324,以监测某些标识特征(例如,屏幕尺寸、驱动器配置等)。可以意识到,因为实体没有合法意图试图访问和下载虚假用户账户132,所以可以高度确信地认为,通过提供真实用户别名306连同欺骗陷阱密码310来登录到虚假用户账户的任何实体是恶意实体322。因此,在许多辖区中,执法机构和/或司法机构可以纵容(例如,发出许可)传送安全性软件316以对网络钓鱼者设备324进行监测和/或采指纹。
现在转向图4,例示出了用于标识消息410的系统400,该消息被设计为欺诈性地获取敏感信息(例如,网络钓鱼消息),然后生成伪造的敏感信息以污染与网络钓鱼活动404相关联的响应数据406。示例性的伪造的敏感信息可以是包括但不限于虚拟银行信息(即,看起来像与有效银行账户相关联但实际上与有效银行账户不相关联的信息)和/或虚拟电子邮件账户证书(即,看起来像与有效电子邮件账户相关联但实际上与有效电子邮件账户不相关联的信息)。以这种方式,即使网络钓鱼者(例如,正在实现网络钓鱼活动的个人或实体)确实从毫无戒心地被消息410欺骗的用户获取了一些真实的敏感信息(例如,真实的银行账户信息和/或真实的电子邮件账户信息),网络钓鱼者也将难以确信地标识和利用此真实的敏感信息,因为它实际上将被掩埋在伪造的敏感信息内。因此,除其他益处外,本文所描述的技术为成功利用任何欺诈性地获取的真实的敏感信息提供了显著的障碍。
如所例示,安全性过滤器114可以分析消息410以过滤出钓鱼消息,该钓鱼消息被设计为欺诈性地说服(“欺骗”)账户所有者202提供各种类型的敏感信息。例如,如所例示,消息410从网络钓鱼者计算机系统402被传送到租户服务器112,在这里它被安全性过滤器114接收。消息410可以对应于网络钓鱼实体在网络钓鱼者设备324上生成并上载到网络钓鱼者计算系统402以供实现的第一网络钓鱼活动404(1)。钓鱼者计算系统402可以包括一个或多个服务器计算机,其可以被利用来实现一个或多个网络钓鱼活动404。
在接收到消息410后,租户服务器112可以部署安全性过滤器114以关于过滤器标准412来分析消息410。过滤器标准412可以包括:例如,已知的恶意网络钓鱼网站的黑名单,从而包含到列入黑名单的网站的链接的任何消息都被指定为网络钓鱼消息;已知信任网站的白名单,从而包含到未列入白名单的网站的链接的任何消息都被指定为网络钓鱼消息;或者指示被设计用于网络钓鱼目的特定消息的其他标准。基于关于过滤器标准412分析个体消息410,安全性过滤器114可以确定哪些消息被允许传递给(多个)真实用户账户122以供用户经由(多个)用户设备418进行访问。在所例示的示例中,从网络钓鱼者计算系统402传送的消息410由安全性过滤器114相关于过滤器标准412进行分析,并且最终被安全性过滤器114指定为网络钓鱼消息。
为了安全地处理钓鱼消息,租户服务器112可以实现引爆室(detonationchamber)116,其被设计为支持在受保护的环境中操纵个体消息410的各个方面。例如,引爆室116可以是隔离的计算环境,诸如例如将真实租户120及其真实用户账户122与引爆室116内发生的任何计算活动隔离开的容器和/或轻量级虚拟机。在所例示的示例中,安全性过滤器114将消息410指定为网络钓鱼消息,结果,消息410被传送到引爆室116中。引爆室116将消息410及其任何恶意内容与来自租户服务器112的其他组件隔离开。
在一些实现中,安全性过滤器114传送到引爆室116中的消息410内包含的链接可以在引爆室116内被引爆(例如,激活和/或选择),以安全地观察和/或分析导致的影响。作为特定但非限制性的示例,消息410可以包含将网页浏览应用引导到钓鱼网站的链接,该钓鱼网站被设计为从毫无戒心的用户欺诈性地获取敏感信息。在许多情形中,此类网络钓鱼网站是被专门设计成从美学上模仿合法组织的网站,甚至可以被托管在与合法组织的网站非常类似的网站地址上。例如,消息410可以指示用户的银行账户已经历安全漏洞,并且需要访问链接网站以重置密码的特定用户操作,以防止银行账户冻结。
在激活包含在消息410内的(多个)链接后,网页浏览器可以打开所链接的网站,该网站可以包括用户被指令将特定类型的敏感信息输入其中的各种表格字段。例如,用户可以被提示输入与在线银行账户相关联的用户名和密码。
租户服务器112还可以利用响应引擎414以生成对消息410的响应408,以便污染网络钓鱼者计算系统402上的响应数据406。响应引擎414可以分析消息410以标识消息410被设计来从毫无戒心的用户欺诈性地获取的一个或多个类型的敏感信息。例如,继续其中消息410指示用户的银行账户已经被损害并且包含到提示用户输入其关联用户名和/或密码的网站的链接的示例,响应引擎414可以分析所链接的网站,以标识用户正被提示将用户名输入到第一表格字段中并将密码输入到第二表格字段中。
在标识出被寻求的(多个)类型的信息后,响应引擎414可以生成包括(多个)那些类型的伪造的敏感信息的内容。例如,响应引擎414可以生成伪造的用户名和/或伪造的密码。最终,响应引擎414可以使包含所生成的内容的响应408被传送到网络钓鱼者计算系统402。
在一些实现中,响应引擎414可以生成虚假响应408(F),其包括完全不可用的虚假敏感信息。例如,虚假响应408(F)可以包括虚假用户名和/或虚假密码中的一个或两个,其由响应引擎414生成并且在虚假用户名和/或虚假密码不提供对任何真实用户账户122或任何虚假用户账户132的访问的意义上是不可用的,如下所述。作为另一个示例,虚假响应408(F)可以包括虚假信用卡号,其在它实际上不对应于任何信用卡账户的意义上是不可用的。
在一些实现中,响应引擎414可以被配置为生成虚假敏感信息,该虚假敏感信息表面上通过一个或多个真实性标准。作为特定但非限制性的示例,在响应引擎414确定消息410欺诈性地寻找信用卡号的情形下,响应引擎可以生成并传送虚假信用卡号,该虚假信用卡号满足通常被用来验证信用卡号的真实性的Luhn算法。以这种方式,网络钓鱼者无法筛选响应并将伪造的敏感信息与同样被获取的任何真实敏感信息分开。
通过生成和传送响应于消息410但仅包括在消息410内所寻求类型的虚假敏感信息的虚假响应408(F),系统100可以对网络钓鱼者建立实质性障碍,使他们甚至无法利用真实响应408(R)(即,由真实用户生成并包含真实敏感信息的响应)——如果响应数据406内存在任何真实响应的话。例如,考虑以下场景:其中网络钓鱼活动404(1)的实现导致一百万封电子邮件被发出到不同的用户别名。假设被发送的一百万封电子邮件中,这些电子邮件中的一部分成功到达了用户的收件箱(例如,通过了安全性过滤器114),并欺骗这些用户提供了真实敏感信息。通常,接收到这些响应的网络钓鱼者将非常有把握地确信所提供的信息是易于利用的实际真实敏感信息(例如,出于经济利益和/或其他目的)。
通过传送一定量的虚假响应408(F),本文所描述的技术用于通过用一定量的虚假响应408(F)稀释任何真实响应408(F)来污染响应数据406。例如,假设响应数据406包括仅仅十五个真实响应408(R)。通常,即使网络钓鱼活动404(1)可能具有相对较低的成功率(例如,百万分之十五),所导致的成功也很容易被有权访问响应数据406的任何恶意实体标识和利用。然而,如果响应数据406还包括一定量的虚假响应408(F),那么所导致的成功将被隐藏或掩埋在虚假响应408(F)所生成的噪声内。这使得真实敏感数据的标识和利用变得困难,并且在一些情况下是不切实际的。根据上文构建特定但非限制性的示例,如果除了十五个真实响应408(R)之外,响应数据406还包括1500个虚假响应408(F),那么网络钓鱼者将被迫花费大量的时间和资源来筛选虚假响应408(F)。此外,网络钓鱼者将没有有效的手段来容易地标识出任何特定的敏感信息片是真实的还是伪造的。
在一些实现中,响应引擎414可以生成种子响应408(S),其包括看起来像是消息410内正被寻找的类型但实际上导致一个或多个虚假用户账户132的信息。作为特定但非限制性的示例,在消息410试图获取可以用于访问真实用户账户122的证书的情形下,响应引擎414可以生成种子响应408(S),其包括一个或多个证书,该证书可以用于访问正由虚假租户130托管的虚假用户账户132。示例性种子响应408(S)可以包括欺骗陷阱密码310。如所例示,网络钓鱼者设备324可以被用来从响应数据406中获取种子响应408(S)。然后,通过将从种子响应408(S)中获取的用户证书提供给租户服务器112,钓鱼者设备324可以被用来访问虚假用户账户132。
如上所述,虚假用户账户132甚至可以填充有虚假数据文件,以看上去像是真实用户账户122。例如,租户服务器112可以实现一个或多个虚假租户模型110,以生成虚假数据文件(例如,包含编造数据或虚构数据但类似于合法业务文件(诸如用户电子邮件和托管文档)的数据文件)。因此,登录到虚假用户账户132上的恶意行为者可能被诱骗花费时间浏览虚假数据文件。
在一些实现中,响应引擎414可以被设计为引起以足够高以破坏网络钓鱼者计算系统402的操作的速率的虚假响应408(F)和/或种子响应408(S)的传送。例如,响应引擎414可以通过重复地激活消息410内的链接和/或重复地将响应408传送给网络钓鱼者计算系统402来进行服务拒绝(DoS)攻击和/或分布式服务拒绝(DDoS)攻击。以这种方式,本文所描述的技术可以用于以虚假响应408(F)和/或种子响应408(S)污染响应数据406,并且还甚至防止毫无戒心的用户提供真实敏感信息。例如,即使与网络钓鱼活动404(1)相关联的网络钓鱼消息实际上使其通过并到达特定用户的收件箱,并且该特定用户实际上也点击了意图是提供所请求信息(例如,真实敏感信息)的链接,托管网络钓鱼网站的(多个)网页服务器也将经历来自响应引擎414的如此多的请求和/或响应,以至于它将无法服务特定用户的请求。
(多个)租户服务器112可以包括设备标识引擎416,用以在网络钓鱼者设备324被用来登录到虚假用户账户132时确定与该网络钓鱼者设备324相对应的配置数据420。示例性配置数据420可以包括但不限于网络钓鱼者设备324的屏幕尺寸、网络钓鱼者设备324的分辨率、网络钓鱼者设备324上的浏览器配置、网络钓鱼者设备324正在操作的一个或多个插件、什么浏览器正被使用在网络钓鱼者设备324上、与网络钓鱼者设备324相关联的互联网协议(IP)地址和/或关于网络钓鱼者设备324可辨别的任何其他信息。此配置数据420可以向设备标识引擎416提供标识源自网络钓鱼者设备324的一个或多个其他登录尝试的能力。
简而言之,配置数据420用作针对网络钓鱼者设备324的“指纹”。例如,由于可以存在于任何特定个人计算设备(例如,膝上型计算机等)上的浏览器设置和插件的可能组合数量非常多,所以在任何特定IP地址处,一个以上的计算设备将具有浏览器设置和插件的特定的组合是非常不可能的。即使在特定的IP地址支持大量的计算设备,诸如例如在指派给大学和其他大型组织的IP地址的情况下,这也可能成立。
由于虚假用户账户132出于合法目的而实际上并未被指派给任何人类用户,因此可以高度确信地假定已登录到虚假用户账户132的网络钓鱼者设备324正在被恶意实体出于非法和恶意目的而使用。因此,系统100可以利用配置数据420来对网络钓鱼者设备324“采指纹”,并且标识它随后何时被用来尝试登录到一个或多个真实用户账户122。在一些实现中,租户服务器112可以拒绝从被标识为先前已被用来登录到一个或多个虚假用户账户132的设备登录到真实用户账户122的此类尝试——即使从网络钓鱼者设备324提供的用户证书完全准确。以这种方式,即使特定用户被网络钓鱼电子邮件欺骗并向网络钓鱼者提供了其真实用户证书,该网络钓鱼者仍将被拒绝访问该特定用户的真实用户账户122——只要网络钓鱼者尝试从“被采指纹的”计算设备访问该账户。
附加地或备选地,响应于确定“被采指纹的”钓鱼者设备324当前正被使用以尝试登录到真实用户账户122,租户服务器112可以与真实用户账户122相关联地发起增强的安全协议。例如,假定信息已经与真实用户账户122相关联地被提供,该账户足以要求多因子身份验证才能登录。例如,针对该账户的用户既提供了密码又提供了手机号码,经由该手机号码接收作为附加因子(即,除了密码以外)而被提供的文本消息代码,以便登录到特定的真实用户账户122。在这些特定但非限制性的情形下,尝试从类似网络钓鱼者设备324的设备(例如,具有与网络钓鱼者设备324的配置数据在一定程度上匹配的配置数据420)登录到真实用户账户122可以触发多因子身份验证的更高安全要求。
附加地或备选地,响应于确定“被采指纹的”钓鱼者设备324在先前某个时间处已被用来登录到真实用户账户122,租户服务器112可以发起针对一个或多个真实用户账户122的增强的安全协议。例如,假设网络钓鱼者设备324已被用来登录到真实用户账户122,然后随后被用来登录到虚假用户账户132——针对其的证书在种子响应408(S)中被提供。在这些情形下,可以通知真实租户120的一个或多个租户管理员:真实用户账户122表面上已被损害和/或可能需要与特定的真实用户账户122相关联的密码重置过程。
现在转向图5,例示出了用于使得真实用户能够将消息410指定为网络钓鱼尝试的系统500,以便部署人工智能(AI)技术来生成假冒响应(impersonation response)506,其将与消息410相关联的网络钓鱼者引诱到对话循环510中。如所例示,消息410源自与网络钓鱼活动相关联的网络钓鱼者计算系统402——如以上关于图4所述。然而,对于图5的目的而言,过滤器标准412不使安全性过滤器114将消息410标识为网络钓鱼消息。例如,消息410可以与先前尚未被标识的“新型”网络钓鱼活动404相关联地源起,并被用来更新过滤器标准412。如图5中所例示,安全性过滤器114允许消息410传递到真实租户120并进入到一个或多个真实用户账户122。例如,消息410可以传递到真实用户账户122的电子邮件收件箱,并且因此,可以由真实用户经由用户设备418访问。
在查看消息410后,真实用户可以辨别消息410的性质,并将该消息指定为网络钓鱼尝试。也就是说,真实用户可以将消息410标示为被标记(“被指定”)为网络钓鱼电子邮件的被标记的消息502。被标记的消息502可以被传送到安全性过滤器114,安全性过滤器114可以分析被标记的消息502以更新过滤器标准412。作为特定但非限制性的示例,安全性过滤器114可以标识被标记的消息502的一个或多个用户接口(UI)输入控件并更新过滤器标准412,以用于标识经由(多个)租户服务器112接收的将来的消息410中的相似或相同的UI输入控件。示例性的此类UI输入控件包括但不限于到网站的链接、表格字段、特定短语和/或短语的模式等。如所例示,被标记的消息502也可以被传递到引爆室116中,以支持使用响应引擎414来与被标记的消息502安全地交互和/或对其进行响应。例如,被标记的消息502内包括的一个或多个链接可以在引爆室116内被激活,以安全地观察所导致的影响。
被标记的消息502可以由响应引擎414分析,以生成对被标记的消息502的响应。在所例示的实施例中,由响应引擎414生成的响应是假冒响应506,其被传送给网络钓鱼者计算系统402,具有指示该假冒响应源自(例如,在其中被起草和/或从中传送)消息410被寻址到的特定真实用户账户122的数据。例如,如果消息410被专门寻址到steve@enterprisedomain.com,那么假冒响应506可以包括被设计为伪造被包括在假冒响应506内的报头数据的一部分的数据,使得看起来像是源自于steve@enterprisedomain.com的真实用户账户122——尽管实际上是源自引爆室116内。简而言之,假冒响应506是被设计为“顶替(spoof)”消息410所寻址到的特定用户账户的响应。
在各种实现中,响应引擎414可以分析被标记的消息502以标识正被追寻的一个或多个类型的敏感信息。作为特定但非限制性的示例,被标记的消息502可以是电子邮件消息,其看起来像是源自用户的蜂窝电话服务提供商。被标记的消息502可能指示用户的账户已过期,并且除非立即提交付款,否则服务将被终止。被标记的消息502还可以指示可以通过回复带有银行支票或信用卡信息的电子邮件来经由银行支票或信用卡提交付款。在这些特定情形下,响应引擎414可以分析被标记的消息502以确定网络钓鱼活动正在追寻信用卡信息。然后,响应引擎414可以生成(或以其他方式获取)虚假信用卡信息以包括在假冒响应506内。
在各种实现中,响应引擎414可以利用一种或多种人工智能(AI)技术来生成对被标记的消息502的响应,该响应非常类似于人类可能实际对这种消息的响应的方式。在所例示的实施例中,响应引擎414包括自然语言处理(NLP)模型504,其可以用于以与两个人通常如何彼此交互和/或交谈的方式相一致的方式来生成对消息的响应。例如,响应引擎414可以生成对被标记的消息502的响应,该响应对在蜂窝电话账户过期表示歉意,并询问公司是否将接受特定类型的信用卡。然后,可以将生成的响应传送到网络钓鱼者计算机系统402作为假冒响应506。在此示例中,响应引擎414已经生成假冒响应506,其指示遵守网络钓鱼消息诈骗的意愿,但是其实际上并不包括正被追寻的敏感信息。
在各种实现中,在可行时响应引擎414可以被专门设计为生成这样的响应,以便引诱网络钓鱼者用响应消息208来应答假冒响应506。以这种方式,响应引擎414可以发起与网络钓鱼者的对话循环510,在其中,在网络钓鱼者和响应引擎414之间传送一系列附加的假冒响应506和响应消息508——从而消耗了网络钓鱼者的时间和资源。
在一些实现中,可以用指令或以其他方式使租户服务器112阻止响应消息508被发送到真实用户账户122的数据来标记假冒响应506。以这种方式,一旦假冒响应506被响应引擎414发送,则从钓鱼者被寻址到用户的任何所得到的消息都不会最终处于用户的真实电子邮件收件箱中。因此,一旦用户将消息410标记为网络钓鱼尝试,则系统500将发起对话循环510,以浪费网络钓鱼者的时间,而不会浪费真实用户的任何附加时间量。
在一些实现中,响应引擎414可以被设计为诱导对话循环510,其中网络钓鱼者被引诱泄露一个或多个其他网络钓鱼活动404的附加细节。作为特定但非限制性的示例,响应引擎414可以生成假冒响应506,其提供具有最近过期的失效日期的虚假信用卡的信息。虚假信用卡信息可以被设计成使实际的信用卡收费系统指示该卡已过期。因此,如果网络钓鱼者试图使用虚假信用卡信息进行在线购买(因为网络钓鱼者通常会用真实信用卡信息匿名进行在线购买),则他们将收到无法处理付款的消息,因为所提供的信用卡已过期。这可以诱导网络钓鱼者发送响应消息208,该消息指示支付失败并且请求替代信用卡信息。然后,响应引擎414可以生成另一个假冒响应506,其指示所提供的信用卡是唯一拥有的信用卡,并且用户不知道该信用卡已过期。
由响应引擎414生成的消息还可以询问是否可以接受任何替代形式的在线支付。然后,该假冒响应506可以诱导网络钓鱼者提供关于如何将付款汇款到网络钓鱼者还用来进行另一网络钓鱼活动404的特定在线支付账户的指令。
在一些实施例中,通过诱导对话循环510而被标识的网络钓鱼活动404的附加细节可以被用来更新过滤器标准412。例如,当诱导网络钓鱼者提供与特定在线支付账户相关联的细节时,过滤器标准412可以被更新以反映该信息。一旦过滤器标准412被更新,那么将来在租户服务器112处接收的包含关于该特定在线支付账户的细节的任何电子邮件都可以被安全性过滤器114标识为与网络钓鱼活动404相关联。
尽管这些技术主要是在顶替真实用户账户122的假冒响应506的上下文中进行讨论的,但是可以认识到,这些技术也可以被部署来顶替消息410被寻址到的虚假用户账户132(图5中未示出)。例如,如上所述,网络钓鱼实体可以发出与网络钓鱼活动相关联的电子邮件,并且可以接收回包括虚假敏感信息的种子响应408(S)。此虚假敏感信息可以包括虚假电子邮件别名(例如,电子邮件地址)。然后,网络钓鱼实体可以向该虚假电子邮件地址发送网络钓鱼电子邮件。在接收到被寻址到虚假电子邮件地址的网络钓鱼电子邮件时,响应引擎414可以生成顶替虚假电子邮件地址的假冒响应506。
尽管这些技术主要是在由于真实用户账户122的用户手动将消息410标记为网络钓鱼而导致的(多个)假冒响应206和/或对话循环510的上下文中进行讨论的,但是可以认识到,这种技术也可能由于安全性过滤器114基于过滤器标准将消息410标记为网络钓鱼而发生。例如,即使对于未通过安全性过滤器114到达真实用户账户122的消息,也可能发生关于图2所描述的(多个)假冒响应206和/或对话循环510。
图6是被例示为逻辑流程图中的框集合的说明性过程600的流程图,其表示可以以硬件、软件或其组合来实现的一系列操作。在软件的上下文中,框表示计算机可执行指令,计算机可执行指令在由一个或多个处理器执行时执行所述操作。通常,计算机可执行指令包括执行或实现特定功能的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制,并且可以以任何顺序和/或并行地组合任意数量的所描述的框以实现该过程。贯穿本公开描述的其他过程将被相应地解释。
现在转向图6,例示出了用于供应对虚假用户账户的访问的示例性过程600的流程图,该虚假用户账户填充有基于虚假租户模型所生成的虚假数据文件。
在框601处,系统可以分析文本的语料库142以标识第一组数据文件的性质。例如,系统可以以对真实用户账户122的一个或多个组件(诸如例如,真实收件箱124、真实发件箱126和/或真实托管文件位置)的选择的形式来接收文本的语料库142。文本的语料库142可以被提供给语料库分析应用104,其可以利用各种人工智能(AI)技术来辨别第一组数据文件的性质。作为特定示例,语料库分析应用104可以利用包括多层长短期记忆(LSTM)单元106的RNN来分析文本的语料库并确定各种性质。关于文本的语料库142的性质,语料库分析应用104可以确定在文本的语料库142内使用的词汇。语料库分析应用104还可以确定词汇内的各个单词被使用的频率和/或词汇内的各个单词被使用在其中的上下文。
在框603处,系统可以生成虚假租户模型110,该虚假租户模型110可以用于生成也展现出第一组数据文件的性质的其他数据文件。例如,如果文本的语料库142包括在一个或多个真实收件箱124和/或真实发件箱126中包括的多个电子邮件,那么虚假租户模型110可以用于生成展现出与文本的语料库142相关联地观察到的相似性质的其他个体电子邮件。然而,尽管看起来与第一组数据文件相似,但是由虚假租户模型110生成的文件是对于对其获得访问的网络钓鱼者没有实际价值的虚构数据文件。例如,所生成的文件可能看起来像是真正的电子邮件文档——尽管由计算系统而不是由真实人员生成的。
在框605处,系统可以部署虚假租户模型110,以利用第二组数据文件填充虚假用户账户132。例如,虚假用户账户132可以是看起来像是真实电子邮件账户的电子邮件账户,甚至可以用于发送和/或接收电子邮件。但是,虚假用户账户132实际上并未被指派给真实用户,而是“蜜罐”型用户账户,其被设计为吸引网络钓鱼者,以观察其计算习惯、浪费其时间和/或提取有关新的和/或不断演化的网络钓鱼活动的附加细节。
在框607处,系统可以从诸如例如网络钓鱼者设备324之类的计算设备接收对虚假用户账户132的访问请求。网络钓鱼者设备324可以是膝上型计算机或某种其他类型的个人计算设备。请求可以包括与虚假用户账户132相关联的证书。例如,可以在种子响应408(S)中传送证书,以引诱(多个)网络钓鱼者访问蜜罐类型的虚假用户账户132。
然后,在框609处,系统可以通过向计算设备供应对第二组数据文件的访问来对请求进行响应。以这种方式,使得网络钓鱼者能够登录到虚假用户账户132,虚假用户账户132继而又向网络钓鱼者提供虚假印象,即已经获得了对正被用来进行真实业务的真实用户账户122的访问。此外,在一些实施例中,虚假租户模型110可以被用来周期性地生成新文件并将新文件添加到虚假用户账户132中。以这种方式,网络钓鱼者可以被登录到虚假用户账户132,并且可以实时地见证电子邮件被发送和/或接收,从而给人以真实用户同时登录甚至使用虚假用户账户132的印象。
图7示出了用于能够执行本文所描述的技术的计算机的示例计算机架构700的附加细节。图7中所例示的计算机架构700例示出了用于服务器计算机、或服务器计算机网络、或适合于实现本文所描述的功能性的任何其他类型的计算设备的架构。计算机架构700可以被利用来执行本文所提出的软件组件的任何方面。
图7中所例示的计算机架构700包括中央处理单元702(“CPU”)、包括随机存取存储器706(“RAM”)和只读存储器(“ROM”)708的系统存储器704以及将存储器704耦合到CPU 702的系统总线710。基本输入/输出系统被存储在ROM 708中,该基本输入/输出系统包含诸如在启动期间帮助在计算机架构700内的输入控件之间传递信息的基本例程。计算机架构700还包括大容量存储设备712,用于存储操作系统714、其他数据和一个或多个应用程序。大容量存储设备712还可以包括安全性过滤器114、引爆室116、虚假租户模型110、真实租户120和/或虚假租户130中的一个或多个。
大容量存储设备712通过连接到总线710的大容量存储控制器(未示出)而连接到CPU 702。大容量存储设备712及其关联的计算机可读介质为计算机架构700提供了非易失性存储。尽管本文中包含的计算机可读介质的描述是指大容量存储设备,诸如固态驱动器、硬盘或CD-ROM驱动器,但是本领域技术人员应该意识到,计算机可读介质介质可以是计算机架构700可以访问的任何可用的计算机存储介质或通信介质。
通信介质包括诸如载波或其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据,并且包括任何递送介质。术语“调制数据信号”意指具有以将信息编码在信号中的方式来改变或设置其一个或多个特性的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、RF、红外和其他无线介质之类的无线介质。以上任何内容的组合也应被包括在计算机可读介质的范围内。
作为示例而非限制,计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如,计算机介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储设备、盒式磁带、磁带、磁盘存储或其他磁性存储设备、或者可以被用来存储所需信息并可由计算机架构700访问的任何其他介质。术语“计算机存储介质”、“计算机可读存储介质”及其变型本身并不包括波、信号和/或其他瞬时和/或无形通信介质。
根据各种技术,计算机架构700可以使用通过网络750和/或另一个网络(未示出)到远程计算机的逻辑连接来在联网环境中操作。计算机架构700可以通过连接到总线710的网络接口单元716而连接到网络750。应当意识到,网络接口单元716也可以被利用来连接到其他类型的网络和远程计算机系统。计算机架构700还可以包括输入/输出控制器718,用于接收和处理来自包括键盘鼠标或电子笔(图7中未示出)在内的许多其他设备的输入。类似地,输入/输出控制器718可以将输出提供给显示屏、打印机或其他类型的输出设备(在图7中也未示出)。还应当意识到,经由通过网络接口单元716到网络750的连接,计算架构可以使得租户服务器112能够与机器学习引擎102、网络钓鱼者计算系统402,用户设备418和/或网络钓鱼者设备324中的一个或多个通信。
应当意识到,当本文所描述的软件组件被加载到CPU 702中并被执行时,可以将CPU 702和整个计算机架构700从通用计算系统转换成被定制来促进本文所提出的功能性的专用计算系统。CPU 702可以由任意数量的晶体管或其他分立电路输入控件构成,它们可以单独地或共同地呈现任意数量的状态。更具体地,响应于包含在本文所公开的软件模块内的可执行指令,CPU 702可以操作为有限状态机。这些计算机可执行指令可以通过规定CPU 702如何在状态之间转换来对CPU 702进行转换,从而对构成CPU 702的晶体管或其他分立硬件输入控件进行转换。
对本文所提出的软件模块进行编码也可以转换本文所提出的计算机可读介质的物理结构。在本说明书的不同实现中,物理结构的特定转换可以取决于各种因素。这样的因素的示例可以包括但不限于被用来实现计算机可读介质的技术,计算机可读介质被表征为主要存储还是辅助存储等。例如,如果计算机可读介质被实现为基于半导体的存储器,则可以通过转换半导体存储器的物理状态来将本文所公开的软件编码在计算机可读介质上。例如,软件可以转换构成半导体存储器的晶体管、电容器或其他分立电路输入控件的状态。该软件还可以转换这些组件的物理状态,以便在其上存储数据。
作为另一个示例,可以使用磁或光技术来实现本文所公开的计算机可读介质。在这样的实现中,当软件被编码在磁介质或光介质中时,本文所提出的软件可以转换磁介质或光介质的物理状态。这些转换可以包括改变给定磁介质内的特定位置的磁特性。这些转换还可以包括改变给定光介质内的特定位置的物理特征或特性,以改变那些位置的光特性。在不背离本说明书的范围和精神的情况下,物理介质的其他转换是可能的,提供前述示例仅仅是为了促进该讨论。
鉴于以上内容,应当意识到,在计算机架构700中发生了许多类型的物理转换,以便存储和执行本文所提出的软件组件。还应当意识到,计算机架构700可以包括其他类型的计算设备,包括手持计算机、嵌入式计算机系统、个人数字助理以及本领域技术人员已知的其他类型的计算设备。还可以设想,计算机架构700可以不包括图7中所示的所有组件,可以包括图7中未明确示出的其他组件,或者可以利用与图7中所示的架构完全不同的架构。
示例条款
可以鉴于以下条款考虑本文所提出的公开。
示例条款A,一种系统,包括:至少一个处理器;以及与至少一个处理器通信的至少一个存储器,至少一个存储器具有存储在其上的计算机可读指令,计算机可读指令在由至少一个处理器执行时使至少一个处理器:使虚假租户生成与一个或多个证书相关联的虚假用户账户;获取虚假租户模型,该虚假租户模型可用于生成展现通过分析文本的语料库而已经被标识的性质的虚假数据文件;部署虚假租户模型,以利用虚假数据文件填充虚假用户账户;从计算设备接收包括一个或多个证书的访问请求;以及基于访问请求,向计算设备供应对被包括在虚假用户账户内的虚假数据文件的访问。
示例条款B,示例条款A的系统,其中获取虚假租户模型包括:使机器学习引擎使用处理单元的顺序布置来分析文本的语料库,以建立可用于生成展现性质的虚假数据文件的虚假租户模型。
示例条款C,示例条款A的系统,其中通过分析文本的语料库而已经被标识的性质至少包括文本的语料库的词汇和语法结构。
示例条款D,示例条款A的系统,其中计算机可读指令还使至少一个处理器在向计算设备供应对虚假用户账户的访问的同时,利用至少一个附加的虚假数据文件填充虚假用户账户。
示例条款E,示例条款A的系统,其中访问请求包括与真实用户账户相对应的真实用户别名。
示例条款F,示例条款E的系统,其中向计算设备供应对虚假数据文件的访问是响应于访问请求的,该访问请求包括欺骗陷阱密码以及与真实用户账户相对应的真实用户别名,并且其中欺骗陷阱密码不同于与真实用户账户相对应的账户所有者密码。
示例条款G,示例条款A的系统,其中计算机可读指令还使至少一个处理器:分析交互数据,该交互数据指示在计算设备与虚假用户账户之间发生的计算活动;并生成指示计算活动的各方面的网络钓鱼活动报告。
示例条款H,示例条款A的系统,其中计算机可读指令还使至少一个处理器:分析访问请求,以确定一个或多个证书是否包括与真实用户账户相对应的真实用户别名,以及与真实用户账户相对应的账户所有者密码;并且响应于包括真实用户别名以及账户所有者密码的一个或多个证书,供应对真实用户账户的访问;或者响应于包括真实用户别名并省略账户所有者密码的一个或多个证书,供应对虚假用户账户的访问。
示例条款I,一种计算机实现的方法,包括:获取文本的语料库,该文本的语料库包括具有一个或多个性质的一组个体数据文件;使机器学习引擎分析文本的语料库以建立虚假租户模型,该虚假租户模型可用于生成具有一个或多个性质的个体虚假数据文件;部署虚假租户模型,以生成具有一个或多个性质的一组虚假数据文件;利用具有一个或多个性质的一组虚假数据文件填充虚假用户账户,其中该虚假用户账户与一个或多个证书相关联;以及响应于包括一个或多个证书的访问请求,向计算设备供应对虚假用户账户的访问。
示例条款J,示例条款I的计算机实现的方法,其中机器学习引擎使用具有长短期记忆(LSTM)单元的顺序布置的递归神经网络(RNN)来分析文本的语料库。
示例条款K,示例条款I的计算机实现的方法,其中被包括在文本的语料库内的一组个体数据文件包括与真实用户账户相关联地被存储的个体真实数据文件。
示例条款L,示例条款I的计算机实现的方法,其中向计算设备供应对虚假用户账户的访问是响应于一个或多个证书的,该一个或多个证书:至少包括与真实用户账户相关联的真实用户别名;并且省略与真实用户账户相关联的账户所有者密码。
示例条款M,示例条款I的计算机实现的方法,其中利用一组虚假数据文件填充虚假用户账户包括:根据至少一个预定的活动的模式,利用个体虚假数据文件周期性地填充虚假收件箱。
示例条款N,示例条款I的计算机实现的方法,还包括:分析交互数据,该交互数据指示在计算设备和虚假用户账户之间发生的计算活动;以及至少部分地基于计算活动的各方面来更新过滤器标准。
示例条款O,示例条款I的计算机实现的方法,其中通过分析文本的语料库而已经被标识的性质至少包括文本的语料库的语法结构。
示例条款P,一种系统,包括:至少一个处理器;以及与至少一个处理器通信的至少一个存储器,至少一个存储器具有存储在其上的计算机可读指令,计算机可读指令在由至少一个处理器执行时使至少一个处理器:获取与一个或多个真实用户账户相对应的多个真实数据文件;使机器学习引擎分析多个真实数据文件以建立虚假租户模型,该虚假租户模型可用于生成具有与多个真实数据文件相对应的一个或多个性质的虚假数据文件;部署虚假租户模型,以根据至少一种预定的活动的模式,利用个体虚假数据文件周期性地填充虚假用户账户;以及响应于包括一个或多个证书的访问请求,向计算设备供应对虚假用户账户的访问,其中在计算设备正在访问虚假用户账户的同时,虚假用户账户利用个体虚假数据文件中的至少一些个体虚假数据文件被填充。
示例条款Q,示例条款P的系统,其中针对虚假用户账户的至少一些证书在种子响应中被传送,该种子响应是响应于被寻址到一个或多个真实用户账户中的至少一个真实用户账户的消息而被生成的。
示例条款R,示例条款P的系统,其中向计算设备供应对虚假用户账户的访问是响应于一个或多个证书的,该一个或多个证书包括欺骗陷阱密码以及与特定的真实用户账户相对应的真实用户别名。
示例条款S,示例条款P的系统,其中机器学习引擎是具有长短期记忆(LSTM)单元的顺序布置的递归神经网络(RNN)。
示例条款T,示例条款P的系统,其中一个或多个性质至少包括与一个或多个真实用户账户相对应的多个真实数据文件的语法结构。
结论
最后,尽管已经用特定于结构特征和/或方法动作的语言描述了各种技术,但是应该理解,所附表示中定义的主题不必限于所描述的特定特征或动作。而是将特定特征和动作公开为实现所要求保护的主题的示例形式。

Claims (15)

1.一种系统,包括:
至少一个处理器;以及
至少一个存储器,与所述至少一个处理器通信,所述至少一个存储器具有存储在其上的计算机可读指令,所述计算机可读指令在由所述至少一个处理器执行时使所述至少一个处理器:
使虚假租户生成与一个或多个证书相关联的虚假用户账户;
获取虚假租户模型,所述虚假租户模型可用于生成虚假数据文件,所述虚假数据文件展现通过分析文本的语料库而已经被标识的性质;
部署所述虚假租户模型,以利用所述虚假数据文件填充所述虚假用户账户;
从计算设备接收包括所述一个或多个证书的访问请求;以及
基于所述访问请求,向所述计算设备供应对被包括在所述虚假用户账户内的所述虚假数据文件的访问。
2.根据权利要求1所述的系统,其中获取所述虚假租户模型包括:使机器学习引擎使用处理单元的顺序布置来分析所述文本的语料库,以建立可用于生成展现出所述性质的所述虚假数据文件的所述虚假租户模型。
3.根据权利要求1所述的系统,其中通过分析所述文本的语料库而已经被标识的所述性质至少包括所述文本的语料库的词汇和语法结构。
4.根据权利要求1所述的系统,其中所述计算机可读指令还使所述至少一个处理器在向所述计算设备供应对所述虚假用户账户的访问的同时,利用至少一个附加的虚假数据文件填充所述虚假用户账户。
5.根据权利要求1所述的系统,其中所述访问请求包括与真实用户账户相对应的真实用户别名。
6.根据权利要求5所述的系统,其中向所述计算设备供应对所述虚假数据文件的访问是响应于所述访问请求的,所述访问请求包括欺骗陷阱密码以及与所述真实用户账户相对应的所述真实用户别名,并且其中所述欺骗陷阱密码不同于与所述真实用户账户相对应的账户所有者密码。
7.一种计算机实现的方法,包括:
获取文本的语料库,所述文本的语料库包括具有一个或多个性质的一组个体数据文件;
使机器学习引擎分析所述文本的语料库以建立虚假租户模型,所述虚假租户模型可用于生成具有所述一个或多个性质的个体虚假数据文件;
部署所述虚假租户模型,以生成具有所述一个或多个性质的一组虚假数据文件;
利用具有所述一个或多个性质的所述一组虚假数据文件填充虚假用户账户,其中所述虚假用户账户与一个或多个证书相关联;以及
响应于包括所述一个或多个证书的访问请求,向计算设备供应对所述虚假用户账户的访问。
8.根据权利要求7所述的计算机实现的方法,其中所述机器学习引擎使用具有长短期记忆(LSTM)单元的顺序布置的递归神经网络(RNN)来分析所述文本的语料库。
9.根据权利要求7所述的计算机实现的方法,其中被包括在所述文本的语料库内的所述一组个体数据文件包括与真实用户账户相关联地被存储的个体真实数据文件。
10.根据权利要求7所述的计算机实现的方法,其中向所述计算设备供应对所述虚假用户账户的访问是响应于所述一个或多个证书的,所述一个或多个证书:至少包括与真实用户账户相关联的真实用户别名;并且省略与所述真实用户账户相关联的账户所有者密码。
11.根据权利要求7所述的计算机实现的方法,其中利用所述一组虚假数据文件填充所述虚假用户账户包括:根据至少一个预定的活动的模式,利用个体虚假数据文件周期性地填充虚假收件箱。
12.一种系统,包括:
至少一个处理器;以及
至少一个存储器,与所述至少一个处理器通信,所述至少一个存储器具有存储在其上的计算机可读指令,所述计算机可读指令在由所述至少一个处理器执行时使所述至少一个处理器:
获取与一个或多个真实用户账户相对应的多个真实数据文件;
使机器学习引擎分析所述多个真实数据文件以建立虚假租户模型,所述虚假租户模型可用于生成具有与所述多个真实数据文件相对应的一个或多个性质的虚假数据文件;
部署所述虚假租户模型,以根据至少一个预定的活动的模式,利用个体虚假数据文件周期性地填充虚假用户账户;以及
响应于包括一个或多个证书的访问请求,向计算设备供应对所述虚假用户账户的访问,其中在所述计算设备正在访问所述虚假用户账户的同时,所述虚假用户账户利用所述个体虚假数据文件中的至少一些个体虚假数据文件被填充。
13.根据权利要求12所述的系统,其中针对所述虚假用户账户的至少一些证书在种子响应中被传送,所述种子响应是响应于被寻址到所述一个或多个真实用户账户中的至少一个真实用户账户的消息而被生成的。
14.根据权利要求12所述的系统,其中向所述计算设备供应对所述虚假用户账户的访问是响应于所述一个或多个证书的,所述一个或多个证书包括欺骗陷阱密码以及与特定的真实用户账户相对应的真实用户别名。
15.根据权利要求12所述的系统,其中所述机器学习引擎是具有长短期记忆(LSTM)单元的顺序布置的递归神经网络(RNN)。
CN201980052957.1A 2018-08-09 2019-06-25 用于生成和部署动态虚假用户账户的方法和系统 Active CN112567707B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/100,154 2018-08-09
US16/100,154 US10601868B2 (en) 2018-08-09 2018-08-09 Enhanced techniques for generating and deploying dynamic false user accounts
PCT/US2019/038824 WO2020033058A1 (en) 2018-08-09 2019-06-25 Enhanced techniques for generating and deploying dynamic false user accounts

Publications (2)

Publication Number Publication Date
CN112567707A true CN112567707A (zh) 2021-03-26
CN112567707B CN112567707B (zh) 2023-05-26

Family

ID=67185790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980052957.1A Active CN112567707B (zh) 2018-08-09 2019-06-25 用于生成和部署动态虚假用户账户的方法和系统

Country Status (4)

Country Link
US (1) US10601868B2 (zh)
EP (1) EP3815330A1 (zh)
CN (1) CN112567707B (zh)
WO (1) WO2020033058A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749388A (zh) * 2019-10-31 2021-05-04 株式会社野村综合研究所 风险管理辅助装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212312B2 (en) 2018-08-09 2021-12-28 Microsoft Technology Licensing, Llc Systems and methods for polluting phishing campaign responses
US10893072B2 (en) * 2018-08-17 2021-01-12 Paypal, Inc. Using cloned accounts to track attacks on user accounts
US11520900B2 (en) * 2018-08-22 2022-12-06 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a text mining approach for predicting exploitation of vulnerabilities
US11294763B2 (en) * 2018-08-28 2022-04-05 Hewlett Packard Enterprise Development Lp Determining significance levels of error values in processes that include multiple layers
US10924514B1 (en) * 2018-08-31 2021-02-16 Intuit Inc. Machine learning detection of fraudulent validation of financial institution credentials
US11265323B2 (en) * 2018-11-13 2022-03-01 Paypal, Inc. Fictitious account generation on detection of account takeover conditions
US10984860B2 (en) 2019-03-26 2021-04-20 Hewlett Packard Enterprise Development Lp Self-healing dot-product engine
US11861692B2 (en) * 2019-06-04 2024-01-02 Sap Se Automated hybrid pipeline for customer identification
US11374972B2 (en) * 2019-08-21 2022-06-28 Micro Focus Llc Disinformation ecosystem for cyber threat intelligence collection
US11625494B2 (en) * 2020-02-06 2023-04-11 AVAST Software s.r.o. Data privacy policy based network resource access controls
KR102197005B1 (ko) * 2020-07-31 2020-12-30 (주)라바웨이브 피싱 어플리케이션에 의해 유출된 개인정보 보호장치 및 방법
US11720709B1 (en) 2020-12-04 2023-08-08 Wells Fargo Bank, N.A. Systems and methods for ad hoc synthetic persona creation
WO2023283697A1 (en) * 2021-07-16 2023-01-19 Cyber Security Research Centre Limited "cyber security"
US11991133B2 (en) * 2022-09-27 2024-05-21 Discord Inc. Real-time message moderation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461402B1 (en) * 1999-07-14 2008-12-02 Symantec Corporation System and method for preventing detection of a selected process running on a computer
CN102449648A (zh) * 2009-05-26 2012-05-09 微软公司 在非web邮件客户端背景中管理潜在钓鱼消息
CN103618995A (zh) * 2013-12-04 2014-03-05 西安电子科技大学 基于动态假名的位置隐私保护方法
EP2942919A1 (en) * 2014-05-08 2015-11-11 Deutsche Telekom AG Social network honeypot
CN107209818A (zh) * 2015-02-06 2017-09-26 高通股份有限公司 用于检测与移动装置的虚假用户交互以用于改进的恶意软件防护的方法和系统
CN107358075A (zh) * 2017-07-07 2017-11-17 四川大学 一种基于层次聚类的虚假用户检测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907533B2 (en) 2000-07-14 2005-06-14 Symantec Corporation System and method for computer security using multiple cages
US7543053B2 (en) 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7219148B2 (en) 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
KR100518119B1 (ko) 2004-01-09 2005-10-04 한국과학기술원 네트워크 기반의 보안 솔루션 시스템
US7913302B2 (en) 2004-05-02 2011-03-22 Markmonitor, Inc. Advanced responses to online fraud
WO2006131124A1 (en) 2005-06-10 2006-12-14 Gatesweeper Solutions Inc. Anti-hacker system with honey pot
US8181250B2 (en) 2008-06-30 2012-05-15 Microsoft Corporation Personalized honeypot for detecting information leaks and security breaches
US8769684B2 (en) 2008-12-02 2014-07-01 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for masquerade attack detection by monitoring computer user behavior
EP2611106A1 (en) 2012-01-02 2013-07-03 Telefónica, S.A. System for automated prevention of fraud
US20130262242A1 (en) * 2012-03-28 2013-10-03 Etalia SA Method and Apparatus for the Handling and Aggregation of Multimedia Contents, for the Creation and Distribution of Multimedia Aggregates and the Distribution of the Associated Advertising Revenue
US9027126B2 (en) 2012-08-01 2015-05-05 Bank Of America Corporation Method and apparatus for baiting phishing websites
US9338143B2 (en) * 2013-03-15 2016-05-10 Shape Security, Inc. Stateless web content anti-automation
US9430794B2 (en) * 2014-03-31 2016-08-30 Monticello Enterprises LLC System and method for providing a buy option in search results when user input is classified as having a purchase intent
US20160005050A1 (en) * 2014-07-03 2016-01-07 Ari Teman Method and system for authenticating user identity and detecting fraudulent content associated with online activities
US9560075B2 (en) 2014-10-22 2017-01-31 International Business Machines Corporation Cognitive honeypot
US9813450B1 (en) * 2015-02-16 2017-11-07 Amazon Technologies, Inc. Metadata-based verification of artifact quality policy compliance
WO2017013589A1 (en) 2015-07-21 2017-01-26 Cymmetria, Inc. Decoy and deceptive data object technology
GB201603118D0 (en) 2016-02-23 2016-04-06 Eitc Holdings Ltd Reactive and pre-emptive security system based on choice theory
US10348763B2 (en) 2016-04-26 2019-07-09 Acalvio Technologies, Inc. Responsive deception mechanisms
US10462181B2 (en) 2016-05-10 2019-10-29 Quadrant Information Security Method, system, and apparatus to identify and study advanced threat tactics, techniques and procedures
US20180007066A1 (en) 2016-06-30 2018-01-04 Vade Retro Technology Inc. Detection of phishing dropboxes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461402B1 (en) * 1999-07-14 2008-12-02 Symantec Corporation System and method for preventing detection of a selected process running on a computer
CN102449648A (zh) * 2009-05-26 2012-05-09 微软公司 在非web邮件客户端背景中管理潜在钓鱼消息
CN103618995A (zh) * 2013-12-04 2014-03-05 西安电子科技大学 基于动态假名的位置隐私保护方法
EP2942919A1 (en) * 2014-05-08 2015-11-11 Deutsche Telekom AG Social network honeypot
CN107209818A (zh) * 2015-02-06 2017-09-26 高通股份有限公司 用于检测与移动装置的虚假用户交互以用于改进的恶意软件防护的方法和系统
CN107358075A (zh) * 2017-07-07 2017-11-17 四川大学 一种基于层次聚类的虚假用户检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749388A (zh) * 2019-10-31 2021-05-04 株式会社野村综合研究所 风险管理辅助装置
CN112749388B (zh) * 2019-10-31 2024-05-24 株式会社野村综合研究所 风险管理辅助装置

Also Published As

Publication number Publication date
US10601868B2 (en) 2020-03-24
EP3815330A1 (en) 2021-05-05
WO2020033058A1 (en) 2020-02-13
CN112567707B (zh) 2023-05-26
US20200053121A1 (en) 2020-02-13

Similar Documents

Publication Publication Date Title
CN112567707B (zh) 用于生成和部署动态虚假用户账户的方法和系统
US12015639B2 (en) Systems and methods for polluting phishing campaign responses
US11102244B1 (en) Automated intelligence gathering
Aleroud et al. Phishing environments, techniques, and countermeasures: A survey
US10027701B1 (en) Method and system for reducing reporting of non-malicious electronic messages in a cybersecurity system
US9774626B1 (en) Method and system for assessing and classifying reported potentially malicious messages in a cybersecurity system
Abraham et al. An overview of social engineering malware: Trends, tactics, and implications
Patil et al. Survey on malicious web pages detection techniques
Lazarov et al. Honey sheets: What happens to leaked google spreadsheets?
Verma et al. Email phishing: Text classification using natural language processing
Altwairqi et al. Four most famous cyber attacks for financial gains
Nagunwa Behind identity theft and fraud in cyberspace: the current landscape of phishing vectors
Baror et al. A taxonomy for cybercrime attack in the public cloud
Goenka et al. A comprehensive survey of phishing: Mediums, intended targets, attack and defence techniques and a novel taxonomy
Chanti et al. A literature review on classification of phishing attacks
Dhanalakshmi et al. Detection of phishing websites and secure transactions
Varshney et al. Anti-phishing: A comprehensive perspective
Elnaim et al. The current state of phishing attacks against Saudi Arabia university students
Tundis et al. The role of Information and Communication Technology (ICT) in modern criminal organizations
Teichmann et al. Phishing attacks: risks and challenges for law firms
Mehta et al. A Review of Social Engineering Attacks and their Mitigation Solutions
Arya et al. Multi layer detection framework for spear-phishing attacks
Wang Mitigating phishing threats
Al-Share et al. Performance evaluation of online website safeguarding tools against phishing attacks; a comparative assessment
Deibert Communities@ risk: Targeted digital threats against civil society

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant