CN117614662A

CN117614662A - 大数据与人工智能结合的网络访问风险预测方法及系统

Info

Publication number: CN117614662A
Application number: CN202311503245.1A
Authority: CN
Inventors: 奚俊; 董学文
Original assignee: Suzhou Sailote Digital Technology Co ltd
Current assignee: Suzhou Sailote Digital Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-27

Abstract

本发明提供一种大数据与人工智能结合的网络访问风险预测方法及系统，涉及网络安全技术领域，包括：获取历史访问数据，根据访问分类规则将历史访问数据分类，生成访问记录网络，将访问记录网络映射至地图中，得到访问频率地图，根据访问频率地图，通过数据分析算法，得到第一分析结果；提取第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则；根据风险预测规则初始化预设的风险预测模型，将根据历史访问数据提取的访问信息特征输入至风险预测模型中，计算得到风险预测结果。

Description

大数据与人工智能结合的网络访问风险预测方法及系统

技术领域

本发明涉及网络安全技术领域，尤其涉及一种大数据与人工智能结合的网络访问风险预测方法及系统。

背景技术

近年来互联网飞速发展，企业需要对业务请求进行处理，通常会设置管理服务器对业务请求进行处理以及对数据信息进行存储，为实现对来自用户终端的业务请求进行处理，管理服务器需要接入广域互联网，然而此时管理服务器需面对来自广域互联网的各种网络安全威胁，金融企业则需要更加注重对网络安全威胁进行防范。

现有技术中，CN110336784A公开了一种基于大数据的网络攻击识别预测系统、方法以及存储介质，其中所述网络攻击识别预测系统包括设置在第一业务系统的前端的安全网桥，用于监控对于第一业务系统的访问请求，并将具有入侵风险的访问请求导向安全云；部署有第二业务系统的安全云，用于响应访问请求，并记录各种访问行为并分析，其中第一业务系统和第二业务系统基本相同；用于存储并分析安全云记录的各项访问行为的大数据平台，以对网络攻击的来源、时间和类型进行分析和预测。

CN112348310A一种网络行为的风险评估方法与系统公开一种既注重记录行为又注重还原内容，即能够实时控制又可以保存完整历史证据的网络行为风险评估方法与系统，实时监控网络环境中的网络行为、通信内容，集中采集、记录、分析处理网络访问数据，同时注重记录行为与内容，并且利用公式将两者关联计算风险值，以量化评估IP的各类型风险。

综上，现有技术虽然能够对网络行为进行分析，但无法根据访问信息的来源和分析结果进行可视化表示，且只是简单分类为风险访问和安全访问，因此需要对用户访问进行详细分类，实现对非正常访问的精准预测。

发明内容

本发明实施例提供一种大数据与人工智能结合的网络访问风险预测方法及系统，用于根据访问记录实现对不同类型的网络访问进行分类和精准预测。

本发明实施例的第一方面，提供一种大数据与人工智能结合的网络访问风险预测方法，包括：

获取历史访问数据，根据访问分类规则将所述历史访问数据分类，生成访问记录网络，将所述访问记录网络映射至地图中，得到访问频率地图，根据所述访问频率地图，通过数据分析算法，得到第一分析结果；

提取所述第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将所述特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则；

根据所述风险预测规则初始化预设的风险预测模型，将根据所述历史访问数据提取的访问信息特征输入至所述风险预测模型中，计算得到风险预测结果。

在一种可选的实施方式中，

所述获取历史访问数据，根据访问分类规则将所述历史访问数据分类，生成访问记录网络，将所述访问记录网络映射至地图中，得到访问频率地图，根据所述访问频率地图，通过数据分析算法，得到第一分析结果包括：

根据系统访问记录获取历史访问数据，将所述历史访问数据根据时间和IP地址进行分组，即将时间分为一小时的时段，将IP地址按照国家和地区分为不同区域，形成访问记录网络；

根据所述访问记录网络，通过仿真软件将所述访问记录网络映射地图中，并通过不同颜色对所述地图进行标注，表示该地区和时间的访问频率，得到访问频率地图，基于所述访问频率地图，通过分析算法得到第一分析结果。

在一种可选的实施方式中，

所述基于所述访问频率地图，通过分析算法得到第一分析结果如下公式所示：

其中，M_i表示地区i的访问频率趋势，a₀表示第一回归系数，a₁表示第二回归系数，a₂表示第三回归系数，t表示时间段，T表示总时间段数，ε表示随机误差。

在一种可选的实施方式中，

所述提取所述第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将所述特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则包括：

提取所述第一分析结果中的特征信息，即每个地区访问的频率和访问频率对应的趋势，生成特征集合；

遍历所述特征集合中的全部元素，统计每个元素出现的频次，根据所述频次构建频次统计表；

根据所述频次统计表，对于每个元素，根据出现的频次从大到小进行排列，并根据排序结果，将所述元素输入至规则解析树中，得到风险预测规则。

在一种可选的实施方式中，

所述根据排序结果，将所述元素输入至规则解析树中，得到风险预测规则如下公式所示：

其中，R_Ki表示地区i的风险预测规则，F(i，j)表示元素j在地区i中的频次，m表示元素的总数，a_j表示访问频率权重，b_j表示访问频率趋势的权重，M_pi表示地区i的访问频率，M_i表示地区i的访问频率趋势，γ_i表示地区i的基线风险。

在一种可选的实施方式中，

所述根据所述风险预测规则初始化预设的风险预测模型，将根据所述历史访问数据提取的访问信息特征输入至所述风险预测模型中，计算得到风险预测结果包括：

获取所述风险预测规则，根据所述风险预测规则初始化所述风险预测模型，并提取所述历史访问数据中的历史特征信息，将所述历史特征信息输入至所述风险预测模型中的第一模块，对于每个历史特征信息，所述第一模块将所述历史特征信息按时间顺序分解为顺序输入序列和倒序输入序列，分别计算所述顺序输入序列对应的顺序输出和倒序输入序列对应的倒序输出，将所述顺序输出和所述倒序输出组合得到第一输出结果；

将所述第一输出结果输入至所述风险预测模型中的第二模块，所述第二模块通过将所述第一输出结果从根节点传递至叶节点，并根据每个节点上预设的判断条件和计算方法确定所述第一输出结果的传递方向，最终得到所述风险预测结果。

在一种可选的实施方式中，

所述第二模块通过将所述第一输出结果从根节点传递至叶节点，并根据每个节点上预设的判断条件和计算方法确定所述第一输出结果的传递方向，最终得到所述风险预测结果如下公式所示：

其中，Risk表示风险预测结果，i表示地区，q表示节点数量，R表示第一输出结果，a_j表示访问频率权重，b_j表示访问频率趋势的权重，M_pi表示地区i的访问频率，M_i表示地区i的访问频率趋势。

本发明实施例的第二方面，提供一种大数据与人工智能结合的网络访问风险预测系统，包括：

第一单元，用于获取历史访问数据，根据访问分类规则将所述历史访问数据分类，生成访问记录网络，将所述访问记录网络映射至地图中，得到访问频率地图，根据所述访问频率地图，通过数据分析算法，得到第一分析结果；

第二单元，用于提取所述第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将所述特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则；

第三单元，用于根据所述风险预测规则初始化预设的风险预测模型，将根据所述历史访问数据提取的访问信息特征输入至所述风险预测模型中，计算得到风险预测结果。

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

本发明实施例的第四方面，

提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

本发明通过根据访问分类规则将历史访问数据分类，创建访问记录网络，并将其映射到地图上，得到访问频率地图，有助于整理和可视化历史访问数据，以便更好地理解网络访问行为，通过数据分析算法，从访问频率地图中提取第一分析结果能够帮助评估网络访问行为的特征，使用风险预测规则初始化风险预测模型，将历史访问数据中提取的访问信息特征输入模型，计算风险预测结果，有助于自动化风险评估和预测，综上，本发明将历史访问数据与地理信息相结合，通过数据分析和规则构建，实现了网络访问风险的预测和管理，有助于提高网络的可用性和安全性，并能够更好地应对不同地区和时间的网络挑战。

附图说明

图1为本发明实施例大数据与人工智能结合的网络访问风险预测方法的流程示意图；

图2为本发明实施例大数据与人工智能结合的网络访问风险预测系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例大数据与人工智能结合的网络访问风险预测方法的流程示意图，如图1所示，所述方法包括：

S1.获取历史访问数据，根据访问分类规则将所述历史访问数据分类，生成访问记录网络，将所述访问记录网络映射至地图中，得到访问频率地图，根据所述访问频率地图，通过数据分析算法，得到第一分析结果；

所述访问分类规则是一组规则或准则，用于定义如何将历史访问数据划分为不同的类别或类型，通过将访问数据按照一定的标准分类，以便更好地理解和分析数据，所述历史访问数据是指记录过去访问事件的数据，通常包括时间戳，地点信息，用户信息和访问类型，所述访问频率地图是一种地理信息系统工具，用于可视化和表示特定地区或地点的访问频率，在地图上，不同地点可以使用不同颜色或标记来表示其访问频率，所述第一分析结果具体为所述访问频率地图中某一地点或地区的访问频率趋势。

在一种可选的实施方式中，

所述记录网络是用于分析和可视化历史访问数据的工具，所述数据分析算法是一种计算方法，用于处理和解释数据，以从中提取有用的信息、模式、趋势和关系，用于分析大量数据，从而支持决策制定、发现见解、优化流程和解决问题。

从系统访问记录中获取历史访问数据，包括时间戳和访问IP地址，对数据进行清洗和预处理，包括去除异常数据、缺失值处理和时间格式转换，将历史访问数据根据时间分组，将时间分为一小时的时段，创建一个时间序列，每小时一个时间段，通过使用IP地址地理位置数据库或API，将每个IP地址映射到相应的国家和地区，将IP地址按照国家和地区分为不同区域，基于分组后的数据，创建一个访问记录网络，其中网络的节点表示不同的时间段和地区，边表示访问链接，每条边的权重表示每个时间段和地区之间的访问频率，更高的权重表示更高的访问频率；

根据记录得到的访问记录网络，使用地图绘制软件将访问记录网络映射到地图上，地图上的节点代表不同时间段和地区，边表示访问链接，在地图上使用不同颜色对节点进行标注，以表示该地区和时间的访问频率，较高的频率使用鲜艳的颜色，而较低的频率使用较暗的颜色，创建一个图例，用于解释颜色与访问频率之间的关系，基于访问频率地图，通过数据分析算法计算某一地点或地区的访问频率趋势，并将所述第一分析结果以图形的形式呈现。

本实施例中，通过整合历史访问数据并将其分组为时间和地点，创建了一个访问记录网络，将数据可视化为访问频率地图，有助于更好地理解网络访问行为的分布和趋势，访问频率地图的标注和着色可以帮助发现地点和时间段内的异常或不寻常的访问模式，有助于提前识别潜在的网络风险或问题，通过实际数据的分析，可以更准确地了解网络访问行为，而不仅仅是基于假设或理论，有助于定制风险预测模型，更符合实际情况，综上，本实施例过综合考虑时间、地点和访问频率，可以更全面地了解网络访问情况，从而更好地应对潜在的风险和挑战，有助于提高网络安全和资源管理的效率。

在一种可选的实施方式中，

所述访问频率趋势表示地区i的访问频率在不同时间段内的变化趋势，反应了地区i的访问频率随时间的演变，所述第一回归系数表示回归线的截距，所示第二回归系数表示表示访问频率趋势与时间段t之间的线性关系，所述第三回归系数表示访问频率趋势与时间段t的二次关系，所述随机误差表示模型中的随机噪声或误差项，是不能由模型捕捉的随机变化，源自不可预测的因素。

本函数中，通过使用回归分析模型，能够更全面地捕捉访问频率的变化趋势，有助于更准确地预测未来的访问频率，模型中的周期性项允许考虑时间上的周期性变化，例如每天、每周或每月的访问模式。这有助于识别网络访问行为的规律性，通过考虑随机误差允许引入不可预测的随机性，以更好地反映实际数据的波动性，提高了模型的适用性，综上，本函数有助于更准确地预测访问频率趋势，提高网络访问风险的预测准确性。

S2.提取所述第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将所述特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则；

所述规则解析树是一种数据结构，通常用于表示和解释复杂的规则集合，用于将一组规则按照特定的层次结构组织，以便更好地理解和应用这些规则，所述风险预测规则是一组规则，用于评估和预测潜在风险或危险性，通常用于数学分析、机器学习和决策支持系统中。

在一种可选的实施方式中，

从第一分析结果中提取特征信息，包括每个地区的访问频率和访问频率对应的趋势，是数值或指标，用于描述不同地区的访问情况，将提取的特征信息组合成一个特征集合，其中每个元素代表一个地区，并包括其访问频率和趋势信息；

对特征集合中的元素进行遍历，统计每个元素出现的频次，表示每个地区的特征在数据集中出现了多少次，生成频次统计表；

根据生成的频次统计表中每个元素出现的频次，将特征元素从大到小进行排序，把具有高频次的地区特征排在前面，根据预设的规则解析树，其中树的根节点代表总体规则，子节点表示更具体的规则或条件，根据排序后的特征元素，将这些元素输入到规则解析树中，根据规则解析树的结构和处理逻辑，每个节点或条件表示一个规则，将这些条件进行组合，最终得到风险预测规则。

本实施例中，通过提取每个地区的访问频率和访问频率趋势等特征信息，能够捕获不同地区的访问行为模式，有助于将特征信息组织起来，为后续的分析和决策提供了基础，通过统计每个特征元素的出现频次，系统可以识别哪些地区的访问模式更为显著或频繁，有助于将关注点集中在最相关的地区上，减少无关地区的干扰，构建规则解析树有助于将规则按照逻辑层次组织起来，使规则更容易理解和管理，综上，本实施例有助于从数据中提取关键特征、聚焦于高风险地区，以更精确地预测网络访问风险。

在一种可选的实施方式中，

所述基线风险表示在没有特定事件或干扰的情况下，系统或环境可能面临的常规风险水平，代表了一个系统或环境的正常状态下的风险程度，通常用于风险评估和风险管理中的比较和基准设定。

本函数中，通过考虑不同地区的风险预测规则，可以根据地区的特点和历史行为进行个性化的风险评估，有助于更准确地识别不同地区的潜在风险，通过观察实际数据，系统可以根据元素的出现频次来确定风险规则中各元素的重要性，从而更好地适应不同情况，通过考虑访问频率和访问频率趋势以及对应的权重系数，说明风险预测规则综合考虑了多个因素，包括当前的访问情况和趋势，这有助于更全面地评估风险，综上，本函数通过综合考虑多维因素，个性化地评估不同地区的风险，同时以数据驱动的方式进行预测，提高了网络访问风险预测的精确度和可解释性。

S3.根据所述风险预测规则初始化预设的风险预测模型，将根据所述历史访问数据提取的访问信息特征输入至所述风险预测模型中，计算得到风险预测结果。

所述风险预测模型是一种数学模型或计算模型，旨在识别和评估特定事件或情况的潜在风险程度，用于基于历史数据、特征信息和统计方法，用于预测未来事件的可能性和严重性。

在一种可选的实施方式中，

所述根节点是规则解析树的起始节点，通常代表总体规则或初始条件，根节点的任务是将第一输出结果传递到树的分支节点，并根据预设的判断条件确定传递方向，叶节点是规则解析树的末端节点，代表最终的风险评估结果或预测结果，所述历史特征信息是指从历史访问数据中提取的信息，包括各种特征，如访问频率、访问趋势、地理位置等。

获取风险预测规则，使用风险预测规则对预设的风险预测模型进行初始化，包括设置模型参数、加载风险预测规则，从历史访问数据中提取与风险评估相关的历史特征信息，这些信息包括访问频率、趋势、地区特征等，获取历史特征信息，将历史特征信息按时间顺序排列，对于每个历史特征信息，将其按时间顺序分解为两个序列，即按时间顺序组织的特征信息的顺序输入序列和将顺序输入序列反转，得到倒序的特征信息的倒序输入序列，使用风险预测模型的第一模块，通过对模型中的权重、激活函数和其他参数的计算，分别计算顺序输入序列对应的顺序输出和倒序输入序列对应的倒序输出，将计算得到的顺序输出和倒序输出组合在一起，以获得第一输出结果，其中所述第一输出结果为一个表示历史特征信息的风险评估向量；

获取计算得到的第一输出结果，基于预设的判断条件和计算方法，初始化模型树，其中树的根节点代表总体规则，从根节点开始，将第一输出结果传递到树的分支节点，根据每个节点上预设的判断条件，决定传递方向，其中，判断条件是基于特征信息，预测规则和模型参数设置的，沿着树的分支继续传递第一输出结果，直到到达叶节点，在叶节点上，使用模型的计算方法和条件，计算得到风险预测结果。

本实施例中，通过提取历史访问数据的历史特征信息，并将其输入到风险预测模型中，系统能够进行个性化的风险评估，通过顺序和倒序输出的组合，第一输出结果涵盖了多个维度的风险评估，这种多维度的评估可以更全面地了解风险因素的复杂性，第二模块的使用允许构建分层的风险模型，根据模型树上的判断条件和计算方法，可以根据不同的情况和规则对风险进行分级评估，从而更好地理解和应对不同的风险事件，综上，本实施例通过将历史特征信息与风险预测规则相结合，根据时间序列进行分解和多维度评估，为网络访问风险提供了更全面的评估和决策支持，有助于组织更好地理解和管理风险，提高网络安全和风险规避的效率。

在一种可选的实施方式中，

本函数中，通过增加或减少节点数量，可以更好地适应特定情况下的风险评估要求，访问频率权重和访问频率趋势的权重可以根据实际情况进行调整。这允许系统灵活地调整不同因素对风险的影响，采用对数函数将综合风险预测结果进行处理，有助于限制结果的范围，使其更容易解释和比较，综上，本函数有助于帮助决策者更好地理解和管理风险，采取相应的措施，以保护网络安全和数据资产。

图2为本发明实施例大数据与人工智能结合的网络访问风险预测系统的结构示意图，如图2所示，所述系统包括：

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.大数据与人工智能结合的网络访问风险预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取历史访问数据，根据访问分类规则将所述历史访问数据分类，生成访问记录网络，将所述访问记录网络映射至地图中，得到访问频率地图，根据所述访问频率地图，通过数据分析算法，得到第一分析结果包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述访问频率地图，通过分析算法得到第一分析结果如下公式所示：

4.根据权利要求1所述的方法，其特征在于，所述提取所述第一分析结果中的特征信息，构建特征集合，遍历特征集合中的全部元素，统计每个元素出现的频次，将所述特征集合中的元素根据所述频次的大小排列，并顺序插入预设的规则解析树，得到风险预测规则包括：

5.根据权利要求4所述的方法，其特征在于，所述根据排序结果，将所述元素输入至规则解析树中，得到风险预测规则如下公式所示：

6.根据权利要求1所述的方法，其特征在于，所述根据所述风险预测规则初始化预设的风险预测模型，将根据所述历史访问数据提取的访问信息特征输入至所述风险预测模型中，计算得到风险预测结果包括：

7.根据权利要求6所述的方法，其特征在于，所述第二模块通过将所述第一输出结果从根节点传递至叶节点，并根据每个节点上预设的判断条件和计算方法确定所述第一输出结果的传递方向，最终得到所述风险预测结果如下公式所示：

8.一种大数据与人工智能结合的网络访问风险预测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。