CN114757790A

CN114757790A - 一种利用神经网络对多源情报风险评估的方法

Info

Publication number: CN114757790A
Application number: CN202210358209.XA
Authority: CN
Inventors: 段吉民; 张�杰; 顾丽旺
Original assignee: Shandong Xinchao Information Technology Co ltd
Current assignee: Shandong Xinchao Information Technology Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-15
Anticipated expiration: 2042-04-06
Also published as: CN114757790B

Abstract

一种利用神经网络对多源情报风险评估的方法，对多个不同数据源进行威胁情报信息统计分析，最终完成风险评估的场景。有效解决多数据源大数据量环境下，对威胁情报信息及时进行多维度分析、预警的需求，从对数据的分析统计中，评估出系统面临的风险，从而实现对目标系统进行安全检测、安全防御、追踪溯源、等保测评等目的。

Description

一种利用神经网络对多源情报风险评估的方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种利用神经网络对多源情报风险评估的方法。

背景技术

威胁情报是某种基于证据的知识，包括上下文、机制、标示、含义和能够执行的建议，这些知识与资产所面临已有的或酝酿中的威胁或危害相关，可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。业内大多数所说的威胁情报可以认为是狭义的威胁情报，其主要内容为用于识别和检测威胁的失陷标识，如文件HASH，IP，域名，程序运行路径，注册表项等，以及相关的归属标签。由于威胁情报所包含信息的特殊价值，因此被用于进行安全检测、安全防御、追踪溯源、等保测评等应用场景，并在实际应用场景中，发挥了其快速、全面预警的能力，能够有效防护未知威胁入侵。

但是在实际的应用过程中，由于威胁情报有明显的地域特点、时效性，不同类型的威胁，其基础数据有不同的收集方式和数格式，因此需要大量的梳理分析工作，从中发掘出签字的风险问题，从而做出准确的风险评估。

现有的解决方案，是采用情报数据聚合技术，使用一种被动数据聚合的方式，对采集的数据进行映射关联，把多个源头汇集起来的数据进行二次关联整合。但在实际应用中，由于数据类型差异、情报产生的时间差异、情报数据缺少统一规范等因素，会导致大部分情报数据残缺遗漏，无法满足情报数据的质量要求，起不到实际辅助判断决策的效果。

发明内容

本发明为了克服以上技术的不足，提供了一种借助计算机的高效计算以及神经网络技术的分析辅助，提升威胁情报的时效性和准确性，深化“历史威胁”、“ttp”(Time-Triggered Protocol协议)等维度的数据，从而找出数据背后隐藏的风险，进行准确的风险评估的方法。

本发明克服其技术问题所采用的技术方案是：

一种利用神经网络对多源情报风险评估的方法，包括：

a)搭建安全服务字典库RDB2，安全服务字典库RDB2包含域名与IP信息库及安防信息字典库；

b)搭建多源情报库RDB1，多源情报库RDB1用于存储从情报源获取到的情报信息，所述情报信息包括恶意文件情报源、威胁情报文章源、DNS/RDNS记录、情报检索源及IOC情报源；

c)搭建语义识别服务器AIS1，语义识别服务器AIS1从多源情报库RDB1中获取情报信息，从情报信息中筛选出攻击活跃时间信息、攻击方式信息、攻击源头信息、历史目标信息、攻击组织者信息及关联IOC信息，语义识别服务器AIS1将筛选的各个信息存入关键词缓冲区；

d)搭建神经网络参数数据库RDB3，其用于保存关键词缓冲区中的各个信息；

e)分别计算得到神经网络参数数据库RDB3中攻击活跃时间变量x_{act_tm}、攻击方式变量x_attack、攻击源头变量x_source、历史目标变量x_history、攻击组织者变量x_organizer及关联IOC变量x_rel；

f)建立神经网络计算服务器NS1，通过公式

z＝x_{act_tm}*w_{act_tm}+x_attack*w_attack+x_source*w_source

x_history*w_history+x_organizer*w_organizer+x_rel*w_rel+bias计算得到加权后的总和值z，w_{act_tm}为攻击活跃时间变量x_{act_tm}的权重值，其取值为有理数，w_attack为攻击方式变量x_attack的权重值，其取值为有理数，w_source为攻击源头变量x_source的权重值，其取值为有理数，w_history为历史目标变量x_history的权重值，其取值为有理数，w_organizer为攻击组织者变量x_organizer的权重值，其取值为有理数，w_rel为关联IOC变量x_rel的权重值，其取值为有理数，bias为偏置值；

g)神经网络计算服务器NS1通过公式

计算得到预测风险系数a_out，式中e为自然对数函数的底数，sigmoid(·)为sigmoid激活函数；

h)计算得到权重调整值Δw_{act_tm}、权重调整值Δw_attack、权重调整值w_source、权重调整值w_history、权重调整值w_organizer、权重调整值w_rel，通过公式w_{act_tm}′＝Δw_{act_tm}+w_{act_tm}计算得到新的权重值w_{act_tm}′，通过公式w_attack′＝Δw_attack+w_attack计算得到新的权重值w_attack′，通过公式w_source′＝Δw_source+w_source计算得到新的权重值w_source′，通过公式w_history′＝Δw_history+w_history计算得到新的权重值w_history′，通过公式w_organizer′＝Δw_organizer+w_organizer计算得到新的权重值w_organizer′，通过公式w_rel′＝Δw_rel+w_rel计算得到新的权重值w_rel′；

i)重复执行步骤c)至步骤h)，重复执行时将步骤h)中更新后的权重值w_{act_tm}′、w_attack′、w_source′、w_history′、w_organizer′、w_rel′分别代替步骤f)中的w_{act_tm}、w_attack、w_source、w_history、w_organizer、w_rel；

j)重复执行步骤i)N次，得到最优的输出预测风险系数a_out。

进一步的，步骤a)中安全服务字典库RDB2采用关系型数据库管理系统，步骤b)中多源情报库RDB1采用关系型数据库管理系统。

进一步的，步骤b)中多源情报库RDB1支持数字格式、文字格式、图片格式、二进制字符串格式的数据存储。

进一步的，步骤b)中还包括建立一残缺情报修复服务器RPS1，残缺情报修复服务器RPS1将情报源发送过来的情报信息与安全服务字典库RDB2中的IP信息库及安防信息字典库进行校验，并对残缺的情报信息进行修复，残缺情报修复服务器RPS1将修复成功的情报信息存储到多源情报库RDB1中，残缺情报修复服务器RPS1将修复失败的数据丢弃。

进一步的，步骤e)包括如下步骤：

e-1)通过公式x_{act_tm}＝sin(c_{act_tm}/N_total*100％)计算得到神经网络参数数据库RDB3中攻击活跃时间变量x_{act_tm}，式中c_{act_tm}为神经网络参数数据库RDB3中IOC攻击活跃时间出现的次数，N_total为神经网络参数数据库RDB3中所有信息的条数；

e-2)通过公式x_attack＝sin(c_attack/N_total*100％)计算得到神经网络参数数据库RDB3中攻击方式变量x_attack，式中c_attack为神经网络参数数据库RDB3中攻击方式出现的次数；

e-3)通过公式x_source＝sin(c_source/N_total*100％)计算得到神经网络参数数据库RDB3中攻击源头变量x_source，式中c_source为神经网络参数数据库RDB3中攻击源头出现的次数；

e-4)通过公式x_history＝sin(c_history/N_total*100％)计算得到神经网络参数数据库RDB3中历史目标变量x_history，式中c_history为神经网络参数数据库RDB3中历史目标出现的次数；

e-5)通过公式x_organizer＝sin(c_organizer/N_total*100％)计算得到神经网络参数数据库RDB3中攻击组织者变量x_organizer，式中c_organizer为神经网络参数数据库RDB3中攻击组织者出现的次数；

e-6)通过公式x_rel＝sin(c_rel/N_total*100％)计算得到神经网络参数数据库RDB3中关联IOC变量x_rel，式中c_rel为神经网络参数数据库RDB3中关联IOC变量出现的次数。

优选的，步骤f)中bias取值为25。

进一步的，步骤h)包括如下步骤：

h-1)通过公式Δw_{act_tm}＝-e_k(w_{act_tm}/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值Δw_{act_tm}，式中e_k为计算误差，e_k＝(r_k-a_out)²，r_k为实际的风险系数；

h-2)通过公式Δw_attack＝-e_k(w_attack/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值Δw_attack；

h-3)通过公式Δw_source＝-e_k(w_source/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值w_source；

h-4)通过公式Δw_history＝-e_k(w_history/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值w_history；

h-5)通过公式Δw_organizer＝-e_k(w_organizer/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值w_organizer；

h-6)通过公式Δw_rel＝-e_k(w_rel/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值w_rel。

优选的，步骤j)中N的取值为15-30次。

本发明的有益效果是：有效解决多数据源大数据量环境下，对威胁情报信息及时进行多维度分析、预警的需求，从对数据的分析统计中，评估出系统面临的风险，从而实现对目标系统进行安全检测、安全防御、追踪溯源、等保测评等目的。该方法首先建立情报收集通道，把不同数据源的多种格式的情报信息采集汇总到一起，结合本地的安全服务字典库，对情报信息中残缺部分进行修补。然后借助第三方的语义识别服务器，将需要采集的关键词采集出来，并提交到神经网络分析库中，神经网络服务器根据这些关键词进行风险分析评估，输出预测风险系数给用户，说明该风险发生的概率。随后采集实际的风险系数，与预测风险系数一起传递给负责调整精确度的反向传播函数，进行参数优化调整，为下一次的预测做优化升级。

附图说明

图1为本发明的网络结构图。

具体实施方式

下面结合附图1对本发明做进一步说明。

本发明中IOC是Inversion of Control的缩写，多翻译成“控制反转”，还有翻译成“控制反向”或者“控制倒置”。1996年，Michael Mattson在一篇有关探讨面向对象框架的文章中，首先提出了IOC这个概念。就是把复杂系统分解成相互合作的对象，这些对象类通过封装以后，内部实现对外部是透明的，从而降低了解决问题的复杂度，而且可以灵活地被重用和扩展。IOC理论提出的观点大体是这样的：借助于“第三方”实现具有依赖关系的对象之间的解耦。IOC技术是目前主流的互联网应用开发所采取的技术手段。

TTP(Time-Triggered Protocol)总线由TTTech公司首先提出，并据此推出了基于TTP总线全开发流程的解决方案，现已广泛应用于欧美，成为替代军用总线(如429总线)的优选之一。其本质是一组通信协议，主要应用于航空分布式控制系统的关键网络技术，从航空发动机控制、座舱系统以及电源管理到飞行控制等系统均能广泛应用。TTP已被确定为Boeing B787、Airbus A380、Bombardier C系列、Embraer Legacy以及其它先进飞机中航空电子系统的通信解决方案。带宽方面，TTP相比传统的ARINC429至少增加了50倍，相比MIL-1553增加了5倍，是CAN总线通信带宽的至少10倍。除此之外，TTP协议提高了通信数据的时间确定性，且采用分布式系统结构，一定程度上简化了先进集成系统的设计，从而降低了时间确定和安全关键系统及其软件的全寿命周期成本。TTP(SAE AS6003)是当前所有基于时间触发的确定性网络通信技术中首个被SAE标准化的通信协议。正在进行基于MIL-1553(AS6003/1)物理层和基于RS485(AS6003/2)。所谓“数据源”(Data Source)顾名思义，数据的来源，是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样，通过提供正确的数据源名称，可以找到相应的数据库连接。在本发明中，使用的是关系型数据库管理系统(RDBMS)作为数据存储和管理的引擎。

数据源能够响应应用程序发送的请求，并提取符合请求的数据结果反馈给请求者。并且数据源的数据会按照实际情况定期更新。

威胁情报是某种基于证据的知识，包括上下文、机制、标示、含义和能够执行的建议，这些知识与资产所面临已有的或酝酿中的威胁或危害相关，可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。业内大多数所说的威胁情报可以认为是狭义的威胁情报，其主要内容为用于识别和检测威胁的失陷标识，如文件HASH，IP，域名，程序运行路径，注册表项等，以及相关的归属标签。是指“人工神经网络”(Artificial NeuralNetworks，简写为ANNs)，也简称为神经网络或称作连接模型，是对人脑或自然神经网络若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础的，其目的在于模拟大脑的某些机理与机制，实现某个方面的功能。国际着名的神经网络研究专家，第一家神经计算机公司的创立者与领导人HechtNielsen给人工神经网络下的定义就是:“人工神经网络是由人工建立的以有向图为拓扑结构的动态系统，它通过对连续或断续的输入作状态相应而进行信息处理”。

神经网络由多个神经元组成。神经元是构成神经网络的最小结构单元，负责完成最基础的逻辑判断，神经元负责接收大量的输入信息，并根据自身的运算逻辑函数以及权重，对输入信息进行分析处理，最终产生结果输出。可以通过调整权重，设置神经元产生反馈的情况。

一种利用神经网络对多源情报风险评估的方法，包括：

a)搭建安全服务字典库RDB2，安全服务字典库RDB2包含域名与IP信息库及安防信息字典库。安全服务字典库RDB2的数据可以定期手工更新，在后期的计算中，主要起到规范数据格式、校验数据完整性的作用。

b)搭建多源情报库RDB1，多源情报库RDB1用于存储从情报源获取到的情报信息，所述情报信息包括恶意文件情报源、威胁情报文章源、DNS/RDNS记录、情报检索源及IOC情报源。

完成以上系统的安装部署，完成与情报源的对接，能够把网络上传递过来的情报信息进行校验核对，对残缺的情报尝试修复补充，然后筛选出结构完整的情报，存储到RDB1中。

c)搭建语义识别服务器AIS1，语义识别服务器AIS1从多源情报库RDB1中获取情报信息，搭建“神经网络参数库”RDB3，选择关系型数据库管理系统，主要记录在进行神经网络分析计算的过程中，用到的变量和参数。此时的情报信息，按照预定义的六个维度进行梳理。六个维度入表一所示，其包括：攻击活跃时间信息、攻击方式信息、攻击源头信息、历史目标信息、攻击组织者信息及关联IOC信息，语义识别服务器AIS1将筛选的各个信息存入关键词缓冲区。

分类	内容
		活跃时间	2022/1/31 12:22
攻击方式	DDOS
		攻击源头	中国山东济南 202.102.22.123
历史目标	www.sdhy-security.com
		攻击组织者	Unknown
关联IOC变量	Com.sdhy.HelloWorld.class

表一

d)搭建神经网络参数数据库RDB3，其用于保存关键词缓冲区中的各个信息。

e)分别计算得到神经网络参数数据库RDB3中攻击活跃时间变量x_{act_tm}、攻击方式变量x_attack、攻击源头变量x_source、历史目标变量x_history、攻击组织者变量x_organizer及关联IOC变量x_rel。

f)建立神经网络计算服务器NS1，通过公式

z＝x_{act_tm}*w_{act_tm}+x_attack*w_attack+x_source*w_source

x_history*w_history+x_organizer*w_organizer+x_rel*w_rel+bias计算得到加权后的总和值Z，w_{act_tm}为攻击活跃时间变量x_{act_tm}的权重值，其取值为有理数，w_attack为攻击方式变量x_attack的权重值，其取值为有理数，w_source为攻击源头变量x_source的权重值，其取值为有理数，w_history为历史目标变量x_history的权重值，其取值为有理数，w_organizer为攻击组织者变量x_organizer的权重值，其取值为有理数，w_rel为关联IOC变量x_rel的权重值，其取值为有理数，bias为偏置值。具体的如表二所示：

变量名称	权重值
		x<sub>act_tm</sub>	w<sub>act_tm</sub>
x<sub>attack</sub>	w<sub>attack</sub>
		x<sub>source</sub>	w<sub>source</sub>
x<sub>history</sub>	w<sub>history</sub>
		x<sub>organizer</sub>	w<sub>organizer</sub>
x<sub>rel</sub>	w<sub>rel</sub>

表二

g)神经网络计算服务器NS1通过公式

计算得到预测风险系数a_out，式中e为自然对数函数的底数，sigmoid(·)为sigmoid激活函数。

h)计算得到权重调整值Δw_{act_tm}、权重调整值Δw_attack、权重调整值w_source、权重调整值w_history、权重调整值w_organizer、权重调整值w_rel，通过公式w_{act_tm}′＝Δw_{act_tm}+w_{act_tm}计算得到新的权重值w_{act_tm}′，通过公式w_attack′＝Δw_attack+w_attack计算得到新的权重值w_attack′，通过公式w_source′＝Δw_source+w_source计算得到新的权重值w_source′，通过公式w_history′＝Δw_history+w_history计算得到新的权重值w_history′，通过公式w_organizer′＝Δw_organizer+w_organizer计算得到新的权重值w_organizer′，通过公式w_rel′＝Δw_rel+w_rel计算得到新的权重值w_rel′。

i)重复执行步骤c)至步骤h)，重复执行时将步骤h)中更新后的权重值w_{act_tm}′、w_attack′、w_source′、w_history′、w_organizer′、w_rel′分别代替步骤f)中的w_{act_tm}′、w_attack、w_source、w_history、w_organizer、w_rel。

j)重复执行步骤i)N次，得到最优的输出预测风险系数a_out。

有效解决多数据源大数据量环境下，对威胁情报信息及时进行多维度分析、预警的需求，从对数据的分析统计中，评估出系统面临的风险，从而实现对目标系统进行安全检测、安全防御、追踪溯源、等保测评等目的。该方法首先建立情报收集通道，把不同数据源的多种格式的情报信息采集汇总到一起，结合本地的安全服务字典库，对情报信息中残缺部分进行修补。然后借助第三方的语义识别服务器，将需要采集的关键词采集出来，并提交到神经网络分析库中，神经网络服务器根据这些关键词进行风险分析评估，输出预测风险系数给用户，说明该风险发生的概率。随后采集实际的风险系数，与预测风险系数一起传递给负责调整精确度的反向传播函数，进行参数优化调整，为下一次的预测做优化升级。

实施例1：

步骤a)中安全服务字典库RDB2采用关系型数据库管理系统，步骤b)中多源情报库RDB1采用关系型数据库管理系统。

实施例2：

步骤b)中多源情报库RDB1支持数字格式、文字格式、图片格式、二进制字符串格式的数据存储。

实施例3：

步骤b)中还包括建立一残缺情报修复服务器RPS1，残缺情报修复服务器RPS1将情报源发送过来的情报信息与安全服务字典库RDB2中的IP信息库及安防信息字典库进行校验，并对残缺的情报信息进行修复，残缺情报修复服务器RPS1将修复成功的情报信息存储到多源情报库RDB1中，残缺情报修复服务器RPS1将修复失败的数据丢弃。

实施例4：

步骤e)包括如下步骤：

实施例5：

步骤f)中bias取值为25。

实施例6：

步骤h)包括如下步骤：

实施例7：

步骤j)中N的取值为15-30次。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用神经网络对多源情报风险评估的方法，其特征在于，包括：

f)建立神经网络计算服务器NS1，通过公式

z＝x_{act_tm}*w_{act_tm}+x_attack*w_attack+x_source*w_source

g)神经网络计算服务器NS1通过公式

h)计算得到权重调整值Δw_{act_tm}、权重调整值Δw_attack、权重调整值w_source、权重调整值w_history、权重调整值w_organizer、权重调整值w_rel，通过公式w_{act_tm}′＝Δw_{act_tm}+w_{act_tm}计算得到新的权重值w_{act_tm}′，通过公式w_attack′＝Δw_attack+w_attack计算得到新的权重值w_attack′，通过公式w_source′＝Δw_source+w_source计算得到新的权重值w_source′，通过公式w_history′＝Δw_history+w_history计算得到新的权重值w_history′，通过公式w_organizer′＝Δw_organizer+w_organizer计算得到新的权重值w_organizer′，通过公式w_rel′＝Δw_rel+w_rel计算得到新的权重值w_rel′；i)重复执行步骤c)至步骤h)，重复执行时将步骤h)中更新后的权重值w_{act_tm}′、w_attack′、w_source′、w_history′、w_organizer′、w_rel′分别代替步骤f)中的w_{act_tm}、w_attack、w_source、w_history、w_organizer、w_rel；

j)重复执行步骤i)N次，得到最优的输出预测风险系数a_out。

2.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于：步骤a)中安全服务字典库RDB2采用关系型数据库管理系统，步骤b)中多源情报库RDB1采用关系型数据库管理系统。

3.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于：步骤b)中多源情报库RDB1支持数字格式、文字格式、图片格式、二进制字符串格式的数据存储。

4.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于：步骤b)中还包括建立一残缺情报修复服务器RPS1，残缺情报修复服务器RPS1将情报源发送过来的情报信息与安全服务字典库RDB2中的IP信息库及安防信息字典库进行校验，并对残缺的情报信息进行修复，残缺情报修复服务器RPS1将修复成功的情报信息存储到多源情报库RDB1中，残缺情报修复服务器RPS1将修复失败的数据丢弃。

5.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于，步骤e)包括如下步骤：

6.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于：步骤f)中bias取值为25。

7.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于，步骤h)包括如下步骤：

h-5)通过公式

Δw_organizer＝-e_k(w_organizer/z)*sigmoid(z)*(1-sigmoid(z))*r_k计算得到权重调整值w_organizer；

8.根据权利要求1所述的利用神经网络对多源情报风险评估的方法，其特征在于：步骤j)中N的取值为15-30次。