CN111177720B - 基于大数据生成威胁情报的方法、装置及可读存储介质 - Google Patents

基于大数据生成威胁情报的方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111177720B
CN111177720B CN201910746554.9A CN201910746554A CN111177720B CN 111177720 B CN111177720 B CN 111177720B CN 201910746554 A CN201910746554 A CN 201910746554A CN 111177720 B CN111177720 B CN 111177720B
Authority
CN
China
Prior art keywords
sample
threat
child
determining
parent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910746554.9A
Other languages
English (en)
Other versions
CN111177720A (zh
Inventor
刘涛
谭昱
沈江波
程虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910746554.9A priority Critical patent/CN111177720B/zh
Publication of CN111177720A publication Critical patent/CN111177720A/zh
Application granted granted Critical
Publication of CN111177720B publication Critical patent/CN111177720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种基于大数据生成威胁情报的方法、装置及可读存储介质,用于全面地且立体化地描述病毒样本造成的攻击事件。本申请方法包括:获取病毒样本及所述病毒样本对应的威胁指标;根据所述威胁指标和所述病毒样本确定所述病毒样本的传播路径;根据所述威胁指标确定所述病毒样本的传播规模;根据所述威胁指标确定所述病毒样本对应的当前攻击事件的家族关系,所述家族关系为所述当前攻击事件中所述威胁指标间的关联关系,和/或所述当前攻击事件中所述威胁指标与历史攻击事件中历史威胁指标间的关联关系;根据所述传播路径、所述传播规模和所述家族关系生成威胁情报。

Description

基于大数据生成威胁情报的方法、装置及可读存储介质
技术领域
本申请涉及网络安全技术领域,尤其涉及一种基于大数据生成威胁情报的方法、装置及可读存储介质。
背景技术
病毒样本是由黑客编写恶意代码并编译生成,且对用户设备具有一定危害的可执行文件。
威胁情报是分析病毒样本的一种有效方式。然而,现有的威胁情报仅对病毒样本造成的攻击事件的危害进行描述,而不能对攻击事件进行立体化及全面的描述。
发明内容
本申请实施例提供了一种基于大数据生成威胁情报的方法、装置及可读存储介质,能够全面地且立体化地描述病毒样本造成的攻击事件。
有鉴于此,本申请实施例第一方面提供一种基于大数据生成威胁情报的方法,包括:
获取病毒样本及所述病毒样本对应的威胁指标,所述威胁指标用于表征所述病毒样本的特征信息;
根据所述威胁指标和所述病毒样本确定所述病毒样本的传播路径;
根据所述威胁指标确定所述病毒样本的传播规模;
根据所述威胁指标确定所述病毒样本对应的当前攻击事件的家族关系,所述家族关系为所述当前攻击事件中所述威胁指标间的关联关系,和/或所述当前攻击事件中所述威胁指标与历史攻击事件中历史威胁指标间的关联关系;
根据所述传播路径、所述传播规模和所述家族关系生成威胁情报。
在本申请实施例的第一方面的另一种实现方式中,获取病毒样本及所述病毒样本对应的威胁指标包括:
从所述样本行为日志中获取预设格式样本的实际行为数据;
将所述实际行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定所述病毒样本的威胁指标。
在本申请实施例的第一方面的另一种实现方式中,获取病毒样本及所述病毒样本对应的威胁指标包括:
获取预设格式样本;
获取沙箱系统模拟执行所述预设格式样本的模拟行为数据;
将所述模拟行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定所述病毒样本的威胁指标。
在本申请实施例的第一方面的另一种实现方式中,所述的方法还包括:
对所述病毒样本和所述病毒样本对应的行为数据进行动态调试和静态分析,以获取所述病毒样本的技术细节,所述行为数据包括实际行为数据和/或模拟行为数据。
本申请实施例第二方面提供一种基于大数据生成威胁情报的装置,包括:
获取单元,用于获取病毒样本及所述病毒样本对应的威胁指标,所述威胁指标用于表征所述病毒样本的特征信息;
路径确定单元,用于根据所述威胁指标和所述病毒样本确定所述病毒样本的传播路径;
规模确定单元,用于根据所述威胁指标确定所述病毒样本的传播规模;
家族关系确定单元,用于根据所述威胁指标确定所述病毒样本对应的当前攻击事件的家族关系,所述家族关系为所述当前攻击事件中所述威胁指标间的关联关系,和/或所述当前攻击事件中所述威胁指标与历史攻击事件中历史威胁指标间的关联关系;
情报生成单元,用于根据所述传播路径、所述传播规模和所述家族关系生成威胁情报。
在本申请实施例的第二方面的另一种实现方式中,所述获取单元用于:
从所述样本行为日志中获取预设格式样本的实际行为数据;
将所述实际行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定所述病毒样本的威胁指标。
在本申请实施例的第二方面的另一种实现方式中,所述获取单元用于:
获取预设格式样本;
获取沙箱系统模拟执行所述预设格式样本的模拟行为数据;
将所述模拟行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定所述病毒样本的威胁指标。
在本申请实施例的第二方面的另一种实现方式中,所述的装置还包括:
分析单元,用于对所述病毒样本和所述病毒样本对应的行为数据进行动态调试和静态分析,以获取所述病毒样本的技术细节,所述行为数据包括实际行为数据和/或模拟行为数据。
在本申请实施例的第二方面的另一种实现方式中,所述路径确定单元用于:
将所述病毒样本确定为子样本;
根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径;
获取所述父样本对应的威胁指标;
将所述父样本确定为新的子样本;
重复执行上述操作直到所述子样本为源头样本;
根据所有子样本、所有父样本及每对父样本与子样本之间的传播途径确定所述病毒样本的传播路径。
在本申请实施例的第二方面的另一种实现方式中,所述威胁指标包括哈希值且不包括下载来源域名;
所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在创建所述子样本的行为;
若所述样本行为日志中存在创建所述子样本的行为,则将创建所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为直接释放。
在本申请实施例的第二方面的另一种实现方式中,所述威胁指标包括哈希值;
所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在下载所述子样本的行为;
若所述样本行为日志中存在下载所述子样本的行为,则将下载所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为网络下载。
在本申请实施例的第二方面的另一种实现方式中,所述威胁指标包括哈希值;
所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在与所述子样本相关的远程攻击行为;
若样本行为日志中存在与所述子样本相关的远程执行行为,则将远程攻击的样本确定为所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为远程攻击。
在本申请实施例的第二方面的另一种实现方式中,所述威胁指标包括哈希值;
所述规模确定单元用于:
根据所述哈希值统计存在所述病毒样本的第一终端数量,所述第一终端数量用于表征所述病毒样本的传播规模。
在本申请实施例的第二方面的另一种实现方式中,所述威胁指标包括所述病毒样本访问的IP地址;
所述规模确定单元用于:
统计访问所述IP地址的第二终端数量,所述第二终端数量用于表征所述病毒样本的传播规模。
在本申请实施例的第二方面的另一种实现方式中,所述家族关系确定单元用于:
根据所述病毒样本的威胁指标和所有父样本的威胁指标确定所述病毒样本对应的当前攻击事件的家族关系。
本申请实施例第三方面提供了一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现本申请第二方面中任一项所述的装置的功能。
本申请实施例第四方面提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机实现本申请第二方面中任一项所述的装置的功能。
本申请实施例第五方面提供了一种包括的计算机程序产品,当其在计算机上运行时使得计算机实现本申请第二方面中任一项所述的装置的功能。
从以上技术方案可以看出,本申请实施例具有以下优点:
先获取病毒样本及病毒样本对应的威胁指标;然后根据威胁指标和病毒样本确定病毒样本的传播路径,根据威胁指标确定病毒样本的传播规模,根据威胁指标确定病毒样本对应的当前攻击事件的家族关系,家族关系为当前攻击事件中威胁指标间的关联关系,和/或当前攻击事件中威胁指标与历史攻击事件中历史威胁指标间的关联关系;最终根据传播路径、传播规模和家族关系生成威胁情报;由此可以看出,该威胁情报从传播路径、传播规模和家族关系三个维度对病毒样本造成攻击事件进行了描述和分析,可以达到全面、立体的描述和分析效果。
附图说明
图1为本申请实施例中生成威胁情报的系统框架示意图;
图2为本申请实施例中基于大数据生成威胁情报的方法一个实施例示意图;
图3为获取病毒样本及病毒样本对应的威胁指标的第一实施例示意图;
图4为确定病毒样本及病毒样本的威胁指标的系统示意图;
图5为获取病毒样本及病毒样本对应的威胁指标的第二实施例示意图;
图6为本申请实施例中确定传播路径的方法示意图;
图7为本申请实施例中传播规模的实施例示意图;
图8为本申请实施例中访问IP地址的终端设备的地域分布示意图;
图9为本申请实施例中基于大数据生成威胁情报的装置的一个实施例的结构示意图;
图10为本发明实施例提供的服务器一种结构示意图。
具体实施方式
本申请实施例提供了一种基于大数据生成威胁情报的方法、装置及可读存储介质,能够全面地且立体化地描述病毒样本造成的攻击事件。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请应用于网络安全场景,具体地,当终端设备上出现病毒样本时,需要采集病毒样本并对病毒样本进行分析。为了便于理解,本申请提出了一种基于大数据生成威胁情报的方法,该方法应用于图1所示的生成威胁情报的系统,请参阅图1,图1为本申请实施例中生成威胁情报的系统框架示意图,如图所示,在该系统框架中,包括终端设备和服务器;其中,终端设备上部署有负责网络安全的客户端,终端设备通过该客户端能够采集包含病毒样本在内的预设格式样本,以及预设格式样本对应的实际行为数据,然后将该预设格式样本和实际行为数据发送到服务器,服务器根据预设格式样本和实际行为数据能够识别出病毒样本,然后对病毒样本进行进一步分析,生成包含传播路径、传播规模和家族关系的威胁情报。
需要说明的是,参阅图1,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑和手机等,此处不做限定。具体地,负责网络安全的客户端可以运行于终端设备的浏览器中,也可以独立运行于终端设备中,此处不作限定。
为了更好的理解本申请实施例提供的基于大数据生成威胁情报的方法,请参阅图2,本申请实施例中基于大数据生成威胁情报的方法一个实施例示意图。在该实施例中,基于大数据生成威胁情报的方法,包括:
101,获取病毒样本及病毒样本对应的威胁指标,威胁指标用于表征病毒样本的特征信息。
需要说明的是,威胁指标用于表征病毒样本的特征信息,因此根据威胁指标可以检测和分析病毒样本,并且威胁指标与病毒样本的种类相关,病毒样本不同,对应的威胁指标不同。威胁指标还是反映主机或网络行为的技术指示器,威胁指标可以根据实际需要进行设定,例如可以包括哈希值、病毒样本访问的IP地址和病毒样本下载来源IP地址,其中哈希值是32位的数,例如一个病毒样本的哈希值可以为95786b6c28bf8dba7bbfeeba9e1ec27a。
而获取病毒样本和威胁指标的方法包括多种,本申请实施例对此不做限定。下面将以多种方法为例,对获取病毒样本和威胁指标的过程进行具体介绍。
例如,请参阅图3,获取病毒样本及病毒样本对应的威胁指标的第一实施例示意图,如图3所示,获取病毒样本及病毒样本对应的威胁指标包括:
1011,从样本行为日志中获取预设格式样本的实际行为数据。
可以理解的是,一般的终端设备都具备生成样本行为日志的功能,生成样本行为日志属于较成熟的技术,本申请实施例对此不做详述;其中,样本行为日志中记录了终端设备中所有样本的实际行为数据。
预设格式可以根据实际需要进行设定,例如可以选取可移植样本作为预设格式样本。
1012,将实际行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定病毒样本的威胁指标。
需要说明的是,该判定规则可以包括专家根据经验预设的一些规则,例如,专家根据经验确定一异常IP地址,则判定规则可以为:只要访问了该异常IP地址的预设格式样本均为病毒样本。
该判定规则也可以包括大数据规则;这里对大数据规则进行说明,假设基于历史数据的分析,在正常情况下,预设格式样本以第一频率访问第一IP地址,则大数据规则可以为:若预设格式样本访问该第一IP地址的频率超出基于第一频率设定的正常频率范围,则可以判定该预设格式样本异常;再假设,基于历史数据的分析,在正常情况下,预设格式样本从未访问过第二IP地址,若大数据规则可以为:若预设格式样本访问了第二IP地址,则可以判定该预设格式样本异常。
如图4所示,确定病毒样本及病毒样本的威胁指标的系统示意图;如图4所示,该系统包括专家系统和大数据系统,其中专家系统中包含专家根据经验预设的规则,大数据系统中包含大数据规则,将预设格式样本输入该系统,便可以输出病毒样本及病毒样本的威胁指标,其中威胁指标的确定过程为较成熟的现有技术,此处不做详述。
上述确定病毒样本和威胁指标的过程是基于实际行为数据进行的,下面将对基于模拟行为数据确定病毒样本和威胁指标的过程进行详细说明。
请参阅图5,获取病毒样本及病毒样本对应的威胁指标的第二实施例示意图,如图5所示,获取病毒样本及病毒样本对应的威胁指标包括:
1013,首先获取预设格式样本。
可以理解的是,可以从数据库中获取预设格式样本,同样地,该预设格式也可以根据实际需要进行设定,例如可以选取可移植样本作为预设格式样本。
1014,获取沙箱系统模拟执行预设格式样本的模拟行为数据。
可以理解的是,沙箱系统是一个虚拟系统程序,允许在沙盘环境中运行浏览器或其他程序,因此运行所产生的变化可以随后删除。它创造了一个类似沙盒的独立作业环境,在其内部运行的程序并不能对硬盘产生永久性的影响。通过独立的虚拟环境,可以测试预设格式样本的模拟行为。
1015,将模拟行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定病毒样本的威胁指标。
其中,预设判定规则的说明与前一示例相同,具体请参阅前一示例中的相关说明。
需要说明的是,无论是模拟行为数据还是实际行为数据,都不一定能够包含预设格式样本的所有行为数据,因此,可以基于实际行为数据确定病毒样本和威胁指标,可以基于模拟行为数据确定病毒样本和威胁指标,还可以基于实际行为数据和模拟行为数据共同确定病毒样本和威胁指标。
102,根据威胁指标和病毒样本确定病毒样本的传播路径。
可以理解的是,传播路径可以包括传播源和传播途径,其中传播途径是传播源传播病毒样本的方式;通过传播路径可以对病毒样本进行溯源,并且确定传播路径的方法有多种,本申请实施例在此不做具体限定。
103,根据威胁指标确定病毒样本的传播规模。
需要说明的是,该传播规模可以从传播范围,也可以传播时间,本申请实施例对传播规模不做具体限定,由于确定传播范围的方法有多种,本申请实施例在此不做具体限定。
104,根据威胁指标确定病毒样本对应的当前攻击事件的家族关系,家族关系为当前攻击事件中威胁指标间的关联关系,和/或当前攻击事件中威胁指标与历史攻击事件中历史威胁指标间的关联关系。
可以理解的是,病毒样本可能对应多个威胁指标,该家族关系可以为多个威胁指标之间的关联关系,除此之外,为了对攻击事件进行归类,该家族关系也可以为当前攻击事件中的威胁指标与历史攻击事件中的历史威胁指标之间的关联关系,通过该关联关系可以将当前攻击事件与历史攻击事件联系起来,从而实现对当前攻击事件的全面分析。
105,根据传播路径、传播规模和家族关系生成威胁情报。
需要说明的是,本申请实施例对步骤102、步骤103和步骤104之间的执行顺序不做限定,图2所示的只是其中一种执行顺序。
在本申请实施例中,该威胁情报从传播路径、传播规模和家族关系三个维度对病毒样本造成攻击事件进行了描述和分析,可以达到全面、立体的描述和分析效果。
下面将分别对传播路径、传播规模和家族关系的确定过程进行详细说明。
首先对传播路径的确定过程进行说明,由于传播路径包括传播源和传播途径,而传播源可以包括一级传播源,即病毒样本是由该传播源直接传播;传播源也可以包括两级或两级以上的传播源,假设传播源包括第一级传播源和第二级传播源,那么传播路径可以是第二级传播源传播第一级传播源,而第一级传播源又传播病毒样本。
基于上述说明,在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,请参阅图6,本申请实施例中确定传播路径的方法示意图,根据威胁指标和病毒样本确定病毒样本的传播路径包括:
201,将病毒样本确定为子样本。
在确定病毒样本的传播源和传播途径的过程中,先要将病毒样本确定为子样本;需要说明的是,将病毒样本确定为子样本的方法有多种,例如可以采用标签进行标记,即将病毒样本与子样本的标签相关联。
202,根据威胁指标确定子样本的父样本及父样本与子样本之间的传播途径。
需要说明的是,根据威胁指标确定父样本及父样本与子样本之间的传播途径的方式有多种,在此不做限定。
203,获取父样本对应的威胁指标。
需要说明的是,获取父样本的威胁指标的过程是较成熟的现有技术,此处不做详述,父样本的威胁指标可以与子样本的威胁指标相同,也可以与子样本的威胁指标不同。
204,将父样本确定为新的子样本。
可以理解的是,将父样本确定为新的子样本的方式与将病毒样本确定为子样本的方式相同,也可以采用标签标记的方法,具体在此不做详述。
205,判断子样本是否为源头样本。
若子样本不是源头样本,则重复执行上述操作直到子样本为源头样本;可以理解的是,若病毒样本只有一级传播源,那么只需要执行一次上述操作,即可确定子样本的源头样本,而当病毒样本有N级传播源时,则需要执行执行N次上述操作才能确定源头样本,其中N为大于等于2整数。
206,若子样本是源头样本,则根据所有子样本、所有父样本及每对父样本与子样本之间的传播途径确定病毒样本的传播路径。
可以理解的是,病毒样本、源头样本以及病毒样本与源头样本之间的中间样本都确定了,并且每一对父样本与子样本之间的传播途径也确定了,便可以确定病毒样本的传播路径。
应理解,当威胁指标包括下载来源域名时,表示子样本是通过下载得到,即一定不是通过直接释放得到的,所以只有当威胁指标不包括下载来源域名时,子样本才可能是通过直接释放得到的。
因此,在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,威胁指标包括哈希值且不包括下载来源域名;
根据威胁指标确定子样本的父样本及父样本与子样本之间的传播途径包括:
先根据哈希值判断样本行为日志中是否存在创建子样本的行为。
需要说明的是,在本申请实施例中,可以使用哈希值表示子样本,若样本行为日志中存在与该哈希值相关的被创建行为,则可以认为样本行为日志中存在创建子样本的行为。
然后若样本行为日志中存在创建子样本的行为,则将创建子样本的样本确定子样本的父样本,并将父样本与子样本之间的传播途径确定为直接释放。
需要说明的是,当传播途径为直接释放时,子样本可以理解为是由父样本被执行时创建并写入数据。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,威胁指标包括哈希值;
根据威胁指标确定子样本的父样本及父样本与子样本之间的传播途径包括:
先根据哈希值判断样本行为日志中是否存在下载子样本的行为。
需要说明的是,这里同样可以使用哈希值表示子样本,若样本行为日志中存在与该哈希值的被下载行为,则可以为样本行为日志中存在下载子样本的行为。
然后若样本行为日志中存在下载子样本的行为,则将下载子样本的样本确定子样本的父样本,并将父样本与子样本之间的传播途径确定为网络下载。
可以理解的是,当传播途径为网络下载时,子样本可以理解为父样本将子样本从网络下载并保存到终端设备中。
另外,需要说明的是,网络下载包括多种情况,例如,网络下载可以为访问页面下载,也可以称为挂马攻击;网络下载可以为软件升级通道下载,也可以称为供应链劫持;网络下载可以为钓鱼邮件下载,也可以称为鱼叉攻击;网络下载可以为伪装正常软件下载,也可以称为水坑攻击;因此,在本申请实施例中,可以进一步确定传播途径所属的情况。
在本申请实施例中,只要威胁指标包括哈希值,不论威胁指标是否包括下载来源域名,均可以采用上述方法对父样本与子样本之间的传播途径是否为网络下载进行确定。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,威胁指标包括哈希值;
根据威胁指标确定子样本的父样本及父样本与子样本之间的传播途径包括:
先根据哈希值判断样本行为日志中是否存在与子样本相关的远程攻击行为。
需要说明的是,同样地,可以使用哈希值表示子样本,样本行为日志中记载有远程攻击行为,根据哈希值和样本行为日志可以确定是否存在与子样本相关的远程攻击行为。
然后若样本行为日志中存在与子样本相关的远程执行行为,则将远程攻击的样本确定为子样本的父样本,并将父样本与子样本之间的传播途径确定为远程攻击。
需要说明的是,远程攻击的样本为具备远程攻击能力的样本,该样本存在攻击的终端设备上,远程攻击的样本对被攻击的终端设备进行远程攻击,会在被攻击的终端设备上植入子样本,或使得被攻击的终端设备访问特定的IP地址,将子样本下载到被攻击的终端设备。
远程攻击主要包括漏洞利用和爆破登录两种情况,而漏洞利用可以具体包括操作系统级别漏洞和应用程序漏洞,爆破登录可以包括RDP爆破、MsSQL爆破和SMB爆破,因此,在本申请实施例中,可以进一步确定传播途径所属的情况。
在本申请实施例中,只要威胁指标包括哈希值,不论威胁指标是否包括下载来源域名,均可以采用上述方法对父样本与子样本之间的传播途径是否为远程攻击进行确定。
基于上述分析,传播途径为网络下载或远程攻击时,子样本均可能是由下载得到的,因此无论威胁指标是否包括下载来源域名,只要威胁指标包括哈希值时,均可以对传播途径是否为远程攻击和传播途径是否为网络下载进行判断。
上面是对传播路径的确定过程进行的说明,下面对传播规模的确定过程进行说明。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,威胁指标包括哈希值;
根据威胁指标确定病毒样本的传播规模包括:
根据哈希值统计存在病毒样本的第一终端数量,第一终端数量用于表征病毒样本的传播规模。
可以理解的是,在本申请实施例中,可以采用哈希值表示病毒样本,即若终端设备上存在该哈希值的预设格式样本,则认为该终端设备上存在病毒样本。
在本申请实施例,采用第一终端数量表示病毒样本的传播规模,为了进一步展示传播规模的变化,还可以以第一终端数量为纵坐标,以时间轴为横坐标,绘制第一终端数量随时间的变化曲线图;另外,还可以以病毒样本的搜索热度为纵坐标,以时间轴为横坐标,绘制搜索热度随时间的变化曲线图;请参阅图7,本申请实施例中传播规模的实施例示意图,在图7中,上方的曲线代表第一终端数量随时间的变化曲线图,下方的曲线代表搜索热度随时间的变化曲线图。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,威胁指标包括病毒样本访问的IP地址。
根据威胁指标确定病毒样本的传播规模包括:
统计访问IP地址的第二终端数量,第二终端数量用于表征病毒样本的传播规模。
在本申请实施例中,先确定了病毒样本访问的IP地址,若终端设备访问了同样的IP地址,则认为该终端设备存在病毒样本。
需要说明的是,为了从另一个角度展示传播规模,可以对访问IP地址的终端设备或存在病毒样本的终端设备的地域分布进行统计;例如,请参阅图8,本申请实施例中访问IP地址的终端设备的地域分布示意图,在图8中,区域的灰度值表示访问IP地址的终端设备数量。
下面对家族关系的确定过程进行详细说明。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,根据威胁指标确定病毒样本对应的当前攻击事件的家族关系包括:
根据病毒样本的威胁指标和所有父样本的威胁指标确定病毒样本对应的当前攻击事件的家族关系。
可以理解的是,在病毒样本的传播路径中,存在多级的父样本,父样本对应的威胁指标可能与病毒样本相同,也可能与病毒样本不同,为了更全面地描述和分析病毒样本对应的当前攻击事件的家族关系,本申请实施例根据病毒样本的威胁指标和所有父样本的威胁指标确定家族关系。
在本申请实施例提供的基于大数据生成威胁情报的方法另一个实施例中,方法还包括:对病毒样本和病毒样本对应的行为数据进行动态调试和静态分析,以获取病毒样本的技术细节,行为数据包括实际行为数据和/或模拟行为数据。
需要说明的是,动态调试和静态分析为较成熟的技术,故在此不做详述。
其中技术细节可以包括感染流程、隐藏技术、对抗技术、危害类型和获利手法;感染流程可以包括写启动项、添加计划任务、写WMI脚本和释放Rookit等;隐藏技术可以包括注入系统进程执行、设置文件属性为隐藏、加载Rookit保护文件和内存执行Powershell脚本等;对抗技术可以包括检测虚拟机、检测沙箱、结束杀软进程和阻止杀软进程联网等;危害类型可以包括勒索病毒、掘矿木马、篡改浏览器主页、窃取敏感信息和远程访问控制等,勒索病毒是加密主机上各类文档(doc、xls、ppt等),然后提示需支付赎金到指定账户,文档才可解密还原,掘矿木马是在用户未授权的情况下,运行程序占用主机CPU资源进行运算,以获取相应的数字加密货币奖励;获利手法通常与危害类型相对应,可以包括勒索获取赎金、掘矿获取数字加密货币、浏览器导航页流量分成和机密信息搜集,机密信息搜集通常为定向攻击而不以直接金钱获利为目标。
请参阅图9,本申请实施例中基于大数据生成威胁情报的装置的一个实施例的结构示意图。
本申请实施例提供一种基于大数据生成威胁情报的装置的一个实施例,包括:
获取单元301,用于获取病毒样本及病毒样本对应的威胁指标,威胁指标用于表征病毒样本的特征信息;
路径确定单元302,用于根据威胁指标和病毒样本确定病毒样本的传播路径;
规模确定单元303,用于根据威胁指标确定病毒样本的传播规模;
家族关系确定单元304,用于根据威胁指标确定病毒样本对应的当前攻击事件的家族关系,家族关系为当前攻击事件中威胁指标间的关联关系,和/或当前攻击事件中威胁指标与历史攻击事件中历史威胁指标间的关联关系;
情报生成单元305,用于根据传播路径、传播规模和家族关系生成威胁情报。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,获取单元301用于:
从样本行为日志中获取预设格式样本的实际行为数据;
将实际行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定病毒样本的威胁指标。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,获取单元301用于:
获取预设格式样本;
获取沙箱系统模拟执行预设格式样本的模拟行为数据;
将模拟行为数据满足预设判定规则的预设格式样本确定为病毒样本,并确定病毒样本的威胁指标。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,装置还包括:
分析单元,用于对病毒样本和病毒样本对应的行为数据进行动态调试和静态分析,以获取病毒样本的技术细节,行为数据包括实际行为数据和/或模拟行为数据。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,路径确定单元302用于:
将病毒样本确定为子样本;
根据威胁指标确定子样本的父样本及父样本与子样本之间的传播途径;
获取父样本对应的威胁指标;
将父样本确定为新的子样本;
重复执行上述操作直到子样本为源头样本;
根据所有子样本、所有父样本及每对父样本与子样本之间的传播途径确定病毒样本的传播路径。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,威胁指标包括哈希值且不包括下载来源域名;
路径确定单元302用于:
根据哈希值判断样本行为日志中是否存在创建子样本的行为;
若样本行为日志中存在创建子样本的行为,则将创建子样本的样本确定子样本的父样本,并将父样本与子样本之间的传播途径确定为直接释放。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,威胁指标包括哈希值;
路径确定单元302用于:
根据哈希值判断样本行为日志中是否存在下载子样本的行为;
若样本行为日志中存在下载子样本的行为,则将下载子样本的样本确定子样本的父样本,并将父样本与子样本之间的传播途径确定为网络下载。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,威胁指标包括哈希值;
路径确定单元302用于:
根据哈希值判断样本行为日志中是否存在与子样本相关的远程攻击行为;
若样本行为日志中存在与子样本相关的远程执行行为,则将远程攻击的样本确定为子样本的父样本,并将父样本与子样本之间的传播途径确定为远程攻击。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,威胁指标包括哈希值;
规模确定单元303用于:
根据哈希值统计存在病毒样本的第一终端数量,第一终端数量用于表征病毒样本的传播规模。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,威胁指标包括病毒样本访问的IP地址;
规模确定单元303用于:
统计访问IP地址的第二终端数量,第二终端数量用于表征病毒样本的传播规模。
在本申请实施例提供的基于大数据生成威胁情报的装置另一个实施例中,家族关系确定单元304用于:
根据病毒样本的威胁指标和所有父样本的威胁指标确定病毒样本对应的当前攻击事件的家族关系。
本申请实施例还提供了一种服务器,请参阅图10,图10是本发明实施例提供的服务器一种结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
在本实施例中,CPU422可以执行前述任一方法实施例所述的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如前述任一方法实施例中服务器的步骤。
本申请实施例中还提供一种包括的计算机程序产品,当其在计算机上运行时使得计算机执行如前述任一方法实施例中服务器的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于大数据生成威胁情报的方法,其特征在于,包括:
获取病毒样本及所述病毒样本对应的威胁指标,所述威胁指标用于表征所述病毒样本的特征信息;所述威胁指标包括哈希值和所述病毒样本访问的IP地址;
将所述病毒样本确定为子样本;
根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径;当所述传播途径为网络下载时,所述父样本为下载所述子样本的样本;当所述传播途径为远程攻击时,所述父样本为执行远程攻击的样本;
获取所述父样本对应的威胁指标,将所述父样本确定为新的子样本;
重复执行所述确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径的步骤,直到所述子样本为源头样本;
根据所有子样本、所有父样本及每对父样本与子样本之间的传播途径确定所述病毒样本的传播路径;
根据所述哈希值统计存在所述病毒样本的第一终端数量;统计访问所述IP地址的第二终端数量;所述第一终端数量和所述第二终端数量均用于表征所述病毒样本的传播规模;
根据所述病毒样本的威胁指标和所有父样本的威胁指标确定所述病毒样本对应的当前攻击事件的家族关系,所述家族关系为所述当前攻击事件中所述威胁指标间的关联关系,和/或所述当前攻击事件中所述威胁指标与历史攻击事件中历史威胁指标间的关联关系;
根据所述传播路径、所述传播规模和所述家族关系生成威胁情报。
2.根据权利要求1所述的方法,其特征在于,所述威胁指标不包括下载来源域名;
所述根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径包括:
根据所述哈希值判断样本行为日志中是否存在创建所述子样本的行为;
若所述样本行为日志中存在创建所述子样本的行为,则将创建所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为直接释放。
3.根据权利要求1所述的方法,其特征在于,所述根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径包括:
根据所述哈希值判断样本行为日志中是否存在下载所述子样本的行为;
若所述样本行为日志中存在下载所述子样本的行为,则将下载所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为网络下载。
4.根据权利要求1所述的方法,其特征在于,所述根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径包括:
根据所述哈希值判断样本行为日志中是否存在与所述子样本相关的远程攻击行为;
若样本行为日志中存在与所述子样本相关的远程执行行为,则将远程攻击的样本确定为所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为远程攻击。
5.一种基于大数据生成威胁情报的装置,其特征在于,包括:
获取单元,用于获取病毒样本及所述病毒样本对应的威胁指标,所述威胁指标用于表征所述病毒样本的特征信息;所述威胁指标包括哈希值和所述病毒样本访问的IP地址;
路径确定单元,用于将所述病毒样本确定为子样本;根据所述威胁指标确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径;当所述传播途径为网络下载时,所述父样本为下载所述子样本的样本;当所述传播途径为远程攻击时,所述父样本为执行远程攻击的样本;获取所述父样本对应的威胁指标;将所述父样本确定为新的子样本;重复执行所述确定所述子样本的父样本及所述父样本与所述子样本之间的传播途径的步骤,直到所述子样本为源头样本;根据所有子样本、所有父样本及每对父样本与子样本之间的传播途径确定所述病毒样本的传播路径;
规模确定单元,用于根据所述哈希值统计存在所述病毒样本的第一终端数量;统计访问所述IP地址的第二终端数量,所述第一终端数量和所述第二终端数量均用于表征所述病毒样本的传播规模;
家族关系确定单元,用于根据所述病毒样本的威胁指标和所有父样本的威胁指标确定所述病毒样本对应的当前攻击事件的家族关系,所述家族关系为所述当前攻击事件中所述威胁指标间的关联关系,和/或所述当前攻击事件中所述威胁指标与历史攻击事件中历史威胁指标间的关联关系;
情报生成单元,用于根据所述传播路径、所述传播规模和所述家族关系生成威胁情报。
6.根据权利要求5所述的装置,其特征在于,所述威胁指标不包括下载来源域名;所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在创建所述子样本的行为;
若所述样本行为日志中存在创建所述子样本的行为,则将创建所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为直接释放。
7.根据权利要求5所述的装置,其特征在于,所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在下载所述子样本的行为;
若所述样本行为日志中存在下载所述子样本的行为,则将下载所述子样本的样本确定所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为网络下载。
8.根据权利要求5所述的装置,其特征在于,所述路径确定单元用于:
根据所述哈希值判断样本行为日志中是否存在与所述子样本相关的远程攻击行为;
若样本行为日志中存在与所述子样本相关的远程执行行为,则将远程攻击的样本确定为所述子样本的父样本,并将所述父样本与所述子样本之间的传播途径确定为远程攻击。
9.一种服务器,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
CN201910746554.9A 2019-08-08 2019-08-08 基于大数据生成威胁情报的方法、装置及可读存储介质 Active CN111177720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910746554.9A CN111177720B (zh) 2019-08-08 2019-08-08 基于大数据生成威胁情报的方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910746554.9A CN111177720B (zh) 2019-08-08 2019-08-08 基于大数据生成威胁情报的方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111177720A CN111177720A (zh) 2020-05-19
CN111177720B true CN111177720B (zh) 2024-03-08

Family

ID=70657055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910746554.9A Active CN111177720B (zh) 2019-08-08 2019-08-08 基于大数据生成威胁情报的方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111177720B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347474A (zh) * 2020-11-06 2021-02-09 奇安信科技集团股份有限公司 一种安全威胁情报的构建方法、装置、设备和存储介质
CN113472788B (zh) * 2021-06-30 2023-09-08 深信服科技股份有限公司 一种威胁感知方法、系统、设备及计算机可读存储介质
CN116471123B (zh) * 2023-06-14 2023-08-25 杭州海康威视数字技术股份有限公司 针对智能设备安全威胁的智能分析方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995814A (zh) * 2013-02-20 2014-08-20 腾讯科技(深圳)有限公司 一种病毒最终母体的查找方法和系统
CN106384048A (zh) * 2016-08-30 2017-02-08 北京奇虎科技有限公司 一种威胁信息处理方法与装置
CN107046543A (zh) * 2017-04-26 2017-08-15 国家电网公司 一种面向攻击溯源的威胁情报分析系统
CN108460278A (zh) * 2018-02-13 2018-08-28 北京奇安信科技有限公司 一种威胁情报处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995814A (zh) * 2013-02-20 2014-08-20 腾讯科技(深圳)有限公司 一种病毒最终母体的查找方法和系统
CN106384048A (zh) * 2016-08-30 2017-02-08 北京奇虎科技有限公司 一种威胁信息处理方法与装置
CN107046543A (zh) * 2017-04-26 2017-08-15 国家电网公司 一种面向攻击溯源的威胁情报分析系统
CN108460278A (zh) * 2018-02-13 2018-08-28 北京奇安信科技有限公司 一种威胁情报处理方法及装置

Also Published As

Publication number Publication date
CN111177720A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
US11277423B2 (en) Anomaly-based malicious-behavior detection
Snyder et al. Most websites don't need to vibrate: A cost-benefit approach to improving browser security
US10554736B2 (en) Mobile URL categorization
EP3506139B1 (en) Malware detection in event loops
Agarwal et al. ProtectMyPrivacy: detecting and mitigating privacy leaks on iOS devices using crowdsourcing
EP3471008B1 (en) De-obfuscating scripted language for network intrusion detection using a regular expression signature
US8762948B1 (en) System and method for establishing rules for filtering insignificant events for analysis of software program
US8635694B2 (en) Systems and methods for malware classification
EP2610776A2 (en) Automated behavioural and static analysis using an instrumented sandbox and machine learning classification for mobile security
US8910293B2 (en) Determining the vulnerability of computer software applications to privilege-escalation attacks
CN111177720B (zh) 基于大数据生成威胁情报的方法、装置及可读存储介质
RU2697950C2 (ru) Система и способ выявления скрытого поведения расширения браузера
EP3531329B1 (en) Anomaly-based-malicious-behavior detection
US9443077B1 (en) Flagging binaries that drop malicious browser extensions and web applications
US20220070219A1 (en) Methods and systems for preventing malicious activity in a computer system
US11528291B2 (en) Methods and apparatus for defending against exploitation of vulnerable software
Yang et al. Eavesdropping user credentials via GPU side channels on smartphones
EP3816831A1 (en) Determining a security score in binary software code
US10445499B1 (en) Grouping application components for classification and malware detection
US10002253B2 (en) Execution of test inputs with applications in computer security assessment
Han et al. Context awareness through reasoning on private analysis for Android application
Chang et al. Vulnerable service invocation and countermeasures
EP3522057B1 (en) System and method of detecting hidden behavior of a browser extension
Jiang et al. Cavaeva: An engineering platform for evaluating commercial anti-malware applications on smartphones
Titze Analysis and Mitigation of Security Issues on Android

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant