CN112187710A

CN112187710A - 威胁情报数据的感知方法、装置、电子装置和存储介质

Info

Publication number: CN112187710A
Application number: CN202010824457.XA
Authority: CN
Inventors: 杨春雷; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-01-05
Anticipated expiration: 2040-08-17
Also published as: CN112187710B

Abstract

本申请涉及一种威胁情报数据的感知方法、装置、电子装置和存储介质。其中，该威胁情报数据的感知方法包括：获取威胁情报数据；将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q‑learning学习算法训练的；根据行为期望表，确定威胁情报数据的攻击源。通过本申请，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

Description

威胁情报数据的感知方法、装置、电子装置和存储介质

技术领域

本申请涉及网络安全技术领域，特别是涉及威胁情报数据的感知方法、装置、电子装置和存储介质。

背景技术

随着我国信息技术的不断进步，涉及计算机信息领域的泄密越来越多，对国家和个人造成了越来越大的影响。因此实时而快速地获取攻击源已成为一个关键点。然而，大量的威胁情报数据很难在短时间内人工找出攻击源，导致了网络威胁攻击的检测效率低的问题。因此，在人力有限的情况下，利用先进的计算机信息安全技术对线索进行实时、快速的分析已成为亟待解决的问题。

在相关技术中，通过人工经验筛选排查，根据以往的用户经验对所有的网络访问以及本地操作做出筛选排查，从而实现对攻击源的查找，这浪费了大量的人力物力，且效率低，且并不能应对复杂且具有迷惑性的攻击手段。

目前针对相关技术中网络威胁攻击的检测效率低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种威胁情报数据的感知方法、装置、电子装置和存储介质，以至少解决相关技术中网络威胁攻击的检测效率低的问题。

第一方面，本申请实施例提供了一种威胁情报数据的感知方法，包括：

获取威胁情报数据；

将所述威胁情报数据输入到强化学习模型中，得到行为期望表，其中，所述强化学习模型是基于Q-learning学习算法训练的；

根据所述行为期望表，确定所述威胁情报数据的攻击源。

在其中一些实施例中，获取威胁情报数据包括：

通过探针实时获取流量数据；

根据预设筛选规则，从所述流量数据中获取威胁情报数据。

在其中一些实施例中，所述流量数据包括以下至少之一：IP地址变动数据、MAC地址变动数据、端口地址变动数据、网络访问数据。

在其中一些实施例中，获取威胁情报数据包括：

从数据库中获取历史威胁情报数据，并将所述历史威胁情报数据作为所述威胁情报数据。

在其中一些实施例中，所述基于Q-learning学习算法训练强化学习模型包括：

基于∈-贪婪法在所述强化学习模型中的当前节点S选择第一动作A，以使得在行为期望表中从当前节点S延伸到下一节点S′，并确定即时奖励R；

在所述下一节点S′，计算基于贪婪法在所述下一节点S′选择第二动作A′的收获Gt，并根据所述收获Gt和所述即时奖励R，更新Q-learning学习算法的价值函数Q。

第二方面，还提供了一种威胁情报数据的感知装置，包括：

获取模块，用于获取威胁情报数据；

输入模块，用于将所述威胁情报数据输入到强化学习模型中，得到行为期望表，其中，所述强化学习模型是基于Q-learning学习算法训练的；

确定模块，用于根据所述行为期望表，确定所述威胁情报数据的攻击源。

在其中一些实施例中，所述获取模块包括：第一获取单元，用于通过探针实时获取流量数据；第二获取模块单元，根据预设筛选规则，从所述流量数据中获取威胁情报数据。

在其中一些实施例中，所述获取模块还包括：第三获取模块，用于从数据库中获取历史威胁情报数据，并将所述历史威胁情报数据作为所述威胁情报数据。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的威胁情报数据的感知方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面的威胁情报数据的感知方法。

相比于相关技术，本申请实施例提供的威胁情报数据的感知方法、装置、电子装置和存储介质，通过获取威胁情报数据；将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q-learning学习算法训练的；根据行为期望表，确定威胁情报数据的攻击源的方式，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的威胁情报数据的感知方法的终端的硬件结构框图；

图2是根据本申请实施例的威胁情报数据的感知方法的流程图；

图3是根据本申请实施例的更新Q-learning学习算法的价值函数Q的方法流程图；

图4是根据本申请实施例的威胁情报数据的感知装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例，图1是根据本申请实施例的威胁情报数据的感知方法的终端的硬件结构框图。如图1所示，终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的威胁情报数据的感知方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本实施例提供了一种威胁情报数据的感知方法，图2是根据本申请实施例的威胁情报数据的感知方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取威胁情报数据。

本步骤中，威胁情报数据可以是实时获取的，也可以是从威胁情报数据的数据中获取的。

例如，在其中一些实施例中，可以通过探针实时获取流量数据；根据预设筛选规则，从流量数据中获取威胁情报数据。通过该方式，实现了对威胁情报数据的实时获取，同时确保了威胁情报数据的时效性。

需要说明的是，本实施例中的探针可以是软探针和硬探针，其中，软探针可以通过软件来获取流量数据，例如，软件可以包括由用户编写的程序；硬探针可以是包括路由器的内存记录，并实现自动转发流量数据。

具体的，可以通过收集在各个路由器，网关和主机等主要关键网络节点上的硬探针数据和软探针数据，当有消息在各个网络节点之间流通时，根据http和tcp网络协议可以解析出各个网络节点的流量信息，再将其信息解析后进行保存，从而获取到上述的流量数据。

另外，还需要说明的是，在获取到流量数据之后，可以对流量数据进行数据清洗，去除不必要的冗余数据，例如：重复连接访问、ping联通数据以及路由直接正常的尝试访问数据等，进而提高流量数据的分析效率，保证流量数据的准确性。

在本实施例中，流量数量可以包括以下至少之一：IP地址变动数据、MAC地址变动数据、端口地址变动数据、网络访问数据。

又例如，在其中一些实施例中，还可以从数据库中获取历史威胁情报数据，并将历史威胁情报数据作为威胁情报数据。通过该方式，实现了在离线情况下对威胁情报数据的获取。

步骤S202，将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q-learning学习算法训练的。

本步骤中，Q-learning学习算法是强化学习算法中value-based的算法，Q即为Q(s，a)就是在某一时刻的状态s下(s∈S)，采取动作a(a∈A)能够获得收益的期望，环境会根据动作a反馈相应的即时奖励R，且该Q-learning学习算法的主要思想是将State(状态)与Action(动作)构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作，以便于反向侦测出攻击源。

需要说明的是，行为期望表可以是基于强化学习模型通过反复的威胁情报数据基于Q学习算法试验和训练得到的。例如可以是通过马尔科夫决策过程，将主要的期望和行为绘制出一张行为期望表。并且在有新的威胁情报数据时可以通过本实施例中的行为期望表可以直接算出最后的预期，并得到对应的威胁情报数据的攻击源。

其中，马尔科夫决策过程可以是，当前动作产生的结果都是和当前的状态有关的，在获取到当前所要采取的行动和当前的状态后，就可以得出当前采取行为产生的后果，即可以将当前的行为和状态记录成一张行为期望表，该行为期望表可以判断行为产生的即时奖励。

步骤S203，根据行为期望表，确定威胁情报数据的攻击源。

在本步骤中，可以是通过将威胁情报数据，根据其经过的路由信息，捕获其探针告警数据的关键词当作输入，计算出其威胁攻击的来源的方式，实现了反向计算攻击源的所在地。

需要说明的是，探针告警数据的关键词可以是，网络通信中通过部署在服务器、路由、桥接器中的程序，对经过该节点的网络数据进行过滤处理，保留下其中的一些关键数据，如该网络数据额最终目的地，该网络数据访问的网络接口，该数据进行的服务器网络操作等待。

通过上述步骤S201至S203，通过将威胁情报数据输入到强化学习模型中，得到行为期望表，并根据行为期望表，确定威胁情报数据的攻击源的方式，无需要人工干预以及手动寻找攻击源，而是通过Q–learning学习算法训练出来的模型将攻击源自动寻找出来，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

在一些实施例中，Sarsa算法是当前策略算法，和Q-learning学习算法两者虽然都可以生成行为期望表，但是当有行为期望表中的威胁情报数据需要更新时，Sarsa算法无法实现更新全局的行为期望表，且其动作的结果，也只可以采用了当前最有效的结果判断，而没有根据全局的动作去对动作产生后的期望值进行计算。因此，在威胁情报数据量非常大的时候(例如，单节点的网络流量数据往往按照百T计算)，通过Sarsa算法训练得到行为期望表会浪费非常多的计算机设备性能，而本申请实施例中，通过采用Q-learning学习算法，可以避免在威胁情报数据量太大的情况下，使用Sarsa算法存在局限性的问题。

需要说明的是，在威胁情报数据的数量低于用户设定的预设阈值时，也可以采用Sarsa算法或期望Sarsa算法执行本申请的方案。

在其中一些实施例中，基于Q-learning学习算法训练强化学习模型包括：基于∈-贪婪法在强化学习模型中的当前节点S选择第一动作A，以使得在行为期望表中从当前节点S延伸到下一节点S′，并确定即时奖励R；在下一节点S′，计算基于贪婪法在下一节点S′选择第二动作A′的收获Gt，并根据收获Gt和即时奖励R，更新Q-learning学习算法的价值函数Q。

在一些实施例中，更新Q-learning学习算法的价值函数Q可以包括以下流程：

算法输入：迭代轮数T，状态集S，动作集A，步长α，衰减因子γ，探索率∈。输出：所有的状态和动作对应的价值Q。

1.随机初始化所有的状态和动作对应的价值Q，对于终止状态其Q值初始化为0。

2.for i from 1to T，进行迭代。

(a)初始化S为当前状态序列的第一个状态；

(b)用∈-贪婪法在当前状态S选择出动作A；

(c)在状态S执行当前动作A，得到新状态S′和奖励R；

(d)更新价值函数Q(S，A)：

(e)S＝S′；

(f)如果S′是终止状态，当前轮迭代完毕，否则转到步骤b)。

在其他一些实施例中，如图3所示，更新Q-learning学习算法的价值函数Q也可以包括以下流程：

步骤S301，初始化Q＝{}。

步骤S302，判断Q是否收敛，在判断到Q未收敛的情况下，执行步骤S303，在判断到Q未收敛的情况下，执行步骤S307。

步骤S303，初始化行为体(即上述实施例中的当前节点)的位置S，开始下一轮探测。

步骤S304，判断当前节点的状态是否为停止状态，若否，执行步骤S305，若是，执行步骤S307。

步骤S305，使用当前策略进行动作，获得当前节点的新位置S'，与即时奖励R(S，a)。

步骤S306，使用下述公式更新行为期望表中的Q值，并将S'赋值给S：

Q[S，A]←(1-α)*Q[S，A]+α*(R(S，a)+γ*maxQ[S'，a])。

步骤S307，停止计算。

需要说明的是，上述实施例中的公式中α为学习速率因子(learning rate)，γ为折扣因子(discount factor)，均可以通过用户调试。且上述根据公式可以看出，学习速率α越大，保留之前训练的效果就越少。折扣因子γ越大，当前结果所起到的作用就越大。通过调试这两个参数，可以调整当前结果和过去结果在最终数据前的影响力。

在本实施例中，探针可以从被攻击的网络资产出发，根据每个状态在行为期望表里对应的行为和其当前的奖赏值，选取当下最适合的行为，即奖励值最大的行为。重复其过程即可找到最终的威胁攻击发起点。

下面通过优选实施例对本申请实施例进行描述和说明。

在其中一些实施例中，收集威胁情报数据可以通过以下方式获取：威胁情报数据来源于部署在各个网络端口的硬探针和软探针。这些探针可以获取实时的流量信息，例如接口变动、主机资产变动、端口访问以及访问信息等。获取各个细节的流量信息，筛选(上述的预设筛选规则)出带有威胁的威胁情报数据，获取有效的威胁情报数据集合。

在其中一些实施例中，行为预期表的初始化可以通过以下方式获取：在强化学习的Q–learning学习算法中有三个要素，分别是状态(state)、动作(action)、奖赏(reward)这三个要素。行为体(Agent，指威胁追踪来源探针，可以是上述实施例中的当前节点)会根据当前状态来采取动作，并记录被反馈的奖赏，以便下次再到相同状态时能采取更优的动作。

状态(state)：在本申请实施例中，探针的状态可以有三种：未到达目标、达到目标、达到死巷，可以用△X表示上述状态，而这其中每个状态又可以细化成两个分支：当前节点有可分析内容，以及当前节点无可分析内容，可以用△Y表示。根据可分析内容的具体状态，可以用△Z表示。

例如：△X：代表当前的目标状态，具体为：到达目标，没到达目标，到达死巷。△Y：代表当前的数据状态，用以判断是否有有价值的威胁情报数据可以判断。△Z：代表当前的具体的行为状态，是根据前两者(△X，△Y)得到的，例如，当△X为未到达，△Y为有威胁情报数据可分析时，△Z为：分析数据，判断上一个流程点。

当前节点的动作A的选择：对于每个状态点，在分析出具体动作为前往下一个网络节点，即为前进；回退到上一个网络节点，即为回退；确认已经到达终点，即为停止。

奖赏R的选择：在行为体还没有停止之前，每一步给予的奖励可以分别为：前进给予10的奖励，后退给予-5的奖励，达到死巷为-1000的奖励，达到终点为1000的奖励。

则根据以上规则，可以制定出初始的行为列表，如表1

状态	前进	后退
			(△X<sup>1</sup>，△Y<sup>1</sup>，△Z<sup>1</sup>，)	10	-5
(△X<sup>2</sup>，△Y<sup>2</sup>，△Z<sup>2</sup>，)	10	-5
			…………………	…………………	…………………
(△X<sup>M</sup>，△Y<sup>N</sup>，△Z<sup>L-1</sup>，)	10	-1000
			(△X<sup>M</sup>，△Y<sup>N</sup>，△Z<sup>L</sup>，)	10	1000

表1初始的行为列表

其中M，N，L为状态值的下标，这张行为期望表一共M*N*L行，表示个M*N*L状态，每个状态所对应的动作都有一个效用值。理想状态下，在完成训练后，我们会获得一张的关于Q的行为期望表。此时，通过本申请，只需要探针根据当前位置查找到对应的行，选择效用值较大的动作作为当前帧的动作，就可以顺利的找到网络威胁攻击来源，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

基于上述实施例中，本申请基于Q-learning学习算法，根据现有的硬探测和软探测技术，获取威胁情报数据的基本信息，并将记录过程中的关键步骤、端口行为、攻击频率和常用参数与Q-learning算法相结合，通过强化模型训练来得出行为期望表，从而让寻找攻击源的探针根据行为期望表快速找到攻击源的方式，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

本实施例还提供了一种威胁情报数据的感知装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的威胁情报数据的感知装置的结构框图，如图4所示，该装置包括：

获取模块41，用于获取威胁情报数据；

输入模块42，耦合至获取模块41，用于将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q-learning学习算法训练的；

确定模块43，耦合至输入模块42，用于根据行为期望表，确定威胁情报数据的攻击源。

在本实施例中，本申请实施例中的威胁情报数据的感知装置，通过获取模块41，用于获取威胁情报数据；输入模块42，耦合至获取模块41，用于将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q-learning学习算法训练的；确定模块43，耦合至输入模块42，用于根据行为期望表，确定威胁情报数据的攻击源的方式，解决了相关技术中网络威胁攻击的检测效率低的问题，提高了网络威胁攻击的检测效率。

在其中一些实施例中，获取模块41包括：第一获取单元，用于通过探针实时获取流量数据；第二获取模块单元，根据预设筛选规则，从流量数据中获取威胁情报数据。

在其中一些实施例中，流量数据包括以下至少之一：IP地址变动数据、MAC地址变动数据、端口地址变动数据、网络访问数据。

在其中一些实施例中，获取模块41还包括：第三获取模块，用于从数据库中获取历史威胁情报数据，并将历史威胁情报数据作为威胁情报数据。

在其中一些实施例中，该装置还包括：选择模块，用于基于-贪婪法在强化学习模型中的当前节点S选择第一动作A，以使得在行为期望表中从当前节点S延伸到下一节点S′，并确定即时奖励R；计算模块，用于在下一节点S′，计算基于贪婪法在下一节点S′选择第二动作A′的收获Gt，并根据收获Gt和即时奖励R，更新Q-learning学习算法的价值函数Q。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S201，获取威胁情报数据。

S202，将威胁情报数据输入到强化学习模型中，得到行为期望表，其中，强化学习模型是基于Q-learning学习算法训练的。

S203，根据行为期望表，确定威胁情报数据的攻击源。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的威胁情报数据的感知方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种威胁情报数据的感知方法。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种威胁情报数据的感知方法，其特征在于，包括：

获取威胁情报数据；

根据所述行为期望表，确定所述威胁情报数据的攻击源。

2.根据权利要求1所述的威胁情报数据的感知方法，其特征在于，获取威胁情报数据包括：

通过探针实时获取流量数据；

根据预设筛选规则，从所述流量数据中获取威胁情报数据。

3.根据权利要求2所述的威胁情报数据的感知方法，其特征在于，所述流量数据包括以下至少之一：IP地址变动数据、MAC地址变动数据、端口地址变动数据、网络访问数据。

4.根据权利要求1所述的威胁情报数据的感知方法，其特征在于，获取威胁情报数据包括：

5.根据权利要求1所述的威胁情报数据的感知方法，其特征在于，所述基于Q-learning学习算法训练强化学习模型包括：

6.一种威胁情报数据的感知装置，其特征在于，包括：

获取模块，用于获取威胁情报数据；

7.根据权利要求6所述的威胁情报数据的感知装置，其特征在于，所述获取模块包括：第一获取单元，用于通过探针实时获取流量数据；第二获取模块单元，根据预设筛选规则，从所述流量数据中获取威胁情报数据。

8.根据权利要求6所述的威胁情报数据的感知装置，其特征在于，所述获取模块还包括：第三获取模块，用于从数据库中获取历史威胁情报数据，并将所述历史威胁情报数据作为所述威胁情报数据。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任一项所述的威胁情报数据的感知方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的威胁情报数据的感知方法。