CN116915459B

CN116915459B - 一种基于大语言模型的网络威胁分析方法

Info

Publication number: CN116915459B
Application number: CN202310863456.XA
Authority: CN
Inventors: 刘旭; 章丽娟; 胡逸漪; 陈鹏; 潘威; 乔猛; 张彦浩
Original assignee: Shanghai Roarpanda Network Technology Co ltd
Current assignee: Shanghai Roarpanda Network Technology Co ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2024-03-08
Anticipated expiration: 2043-07-13
Also published as: CN116915459A

Abstract

本发明涉及计算机网络安全技术领域，尤其涉及一种基于大语言模型的网络威胁分析方法。所述方法包括以下步骤：获取网络相关数据，并利用数据整合算法对网络相关数据进行整合处理，得到网络数据；利用网络降噪算法对网络数据进行降噪处理，得到网络降噪数据；利用特征提取技术对网络降噪数据进行特征提取处理，得到网络数据特征；利用语义化转换算法对网络数据特征进行数据语义化处理，得到网络语义化数据；对网络语义化数据进行数据预处理，得到网络语义化特定数据集。本发明通过使用大语言模型来进行网络威胁分析，实现了在大数据时代下，对网络空间中的安全隐患和威胁分析的功能。

Description

一种基于大语言模型的网络威胁分析方法

技术领域

本发明涉及计算机网络安全技术领域，尤其涉及一种基于大语言模型的网络威胁分析方法。

背景技术

随着网络技术的快速兴起，大数据时代也在飞速的发展，在大数据环境下，网络威胁分析是一项重要的任务。由于数据量庞大、数据类型复杂且多样化，在网络空间中存在大量的安全隐患和威胁，如黑客攻击、恶意软件、钓鱼网站等问题已经成为严重的网络安全威胁。因此，对于网络威胁的识别、预测和防范，显得尤为重要。然而，目前的网络安全技术主要采用规则引擎、静态分析、行为分析等技术，这些技术对于识别和预测某些新型的网络威胁存在诸多问题，如漏报、误报等现象。需要一种更为高效、准确的网络威胁分析技术。

随着自然语言处理技术的发展，可以借助大语言模型来进行网络威胁分析，以提高分析效率和准确性。尽管网络威胁分析技术在不断发展和进步，但现有技术任然存在一些不足之处，例如大数据处理能力限制、威胁模型缺失、数据质量不稳定、缺少标准和规范以及未知和小样本数据处理不佳等问题。

发明内容

基于此，本发明有必要提供一种基于大语言模型的网络威胁分析方法，以解决至少一个上述技术问题。

为实现上述目的，一种基于大语言模型的网络威胁分析方法，包括以下步骤：

步骤S1：获取网络相关数据，并利用数据整合算法对网络相关数据进行整合处理，得到网络数据；利用网络降噪算法对网络数据进行降噪处理，得到网络降噪数据；

步骤S2：利用特征提取技术对网络降噪数据进行特征提取处理，得到网络数据特征；利用语义化转换算法对网络数据特征进行数据语义化处理，得到网络语义化数据；

步骤S3：对网络语义化数据进行数据预处理，得到网络语义化特定数据集；根据预设的大语言模型对网络语义化特定数据集进行网络威胁分析，得到网络威胁推理结果；

步骤S4：利用网络微调技术对大语言模型进行微调训练处理，得到网络威胁推理优化结果；利用自适应适配技术对网络威胁推理优化结果进行自主适配处理，得到网络威胁适配结果；

步骤S5：利用漏洞检测分析算法对网络威胁适配结果进行漏洞关联分析，得到网络威胁漏洞检测结果；根据网络威胁漏洞检测结果制定网络威胁检测分析报告以执行相应的网络威胁分析管理策略。

本发明通过多种方式获取与网络相关的数据，例如日志文件、数据采集工具、多服务商API接口等，并通过设置一个适当的数据整合算法对网络相关数据进行整合处理，由于整合处理后的网络数据可能包含各种噪声和不必要的信息，通过利用合适的网络降噪算法对获取到的网络数据进行降噪处理，去除网络数据中的噪声和干扰数据，以便提供干净、清晰的数据源，为后续的特征提取和语义化的处理过程提供基础数据。通过使用特征提取技术对网络降噪数据进行特征提取处理，将抽象的网络数据转换为易于处理的数值型向量形式，以便进行后续的分析。并利用语义化转换算法对提取到的网络数据特征进行数据语义化处理，进一步提取网络中的语义信息，从而更全面、准确地描述网络中发生的事件和行为。然后，对经过特征提取和语义化转换的网络数据进行数据预处理，将网络语义化数据调整为适合模型分析的形式，以便于后续进行网络威胁推理。根据预设的大语言模型对网络语义化特定数据集进行网络威胁分析推理，并输出相应的网络威胁推理结果，能够在网络语义化特定数据集中准确地识别和预测潜在的网络威胁。通过设置合适的网络微调算法对构建的大语言模型进行微调训练处理，进一步将网络威胁推理进行优化，以提高网络威胁推理的准确性和可靠性。同时，利用自适应适配技术对微调后的网络威胁推理优化结果进行自主适配处理，以避免对特定威胁的过拟合，适应变化的网络环境，从而提高网络威胁适配效率和精度。最后，通过使用合适的漏洞检测分析算法对网络威胁适配结果进行漏洞检测，从而识别网络威胁事件中可能存在或遗漏的漏洞威胁事件并进行关联分析，以确定安全威胁的来源，提高网络安全管理人员判断网络威胁的能力。并通过网络威胁漏洞检测结果制定网络威胁检测分析报告以执行相应的网络威胁分析管理策略，为防范和应对网络威胁提供有力的支持。

附图说明

通过阅读参照以下附图所作的对非限制性实施所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的基于大语言模型的网络威胁分析方法的模块方框图；

图2为本发明基于大语言模型的网络威胁分析方法的步骤流程示意图；

图3为图2中步骤S1的详细步骤流程示意图；

图4为图3中步骤S15的详细步骤流程示意图。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

为实现上述目的，请参阅图1至图4，本发明提供了一种基于大语言模型的网络威胁分析方法，所述方法包括以下步骤：

本发明实施例中，请参考图2所示，为本发明基于大语言模型的网络威胁分析方法的步骤流程示意图，在本实例中，所述基于大语言模型的网络威胁分析方法的步骤包括：

本发明实施例通过日志文件、数据采集工具、多服务商API接口等多种方式获取网络相关数据，并通过设置一个合适的数据整合算法对提取到的数据进行整合处理，以得到网络数据。然后，通过构建一个适当的网络降噪算法对网络数据进行降噪处理，以消除网络数据中噪声源的影响，最终得到网络降噪数据。

本发明实施例通过特征提取技术对降噪后的网络降噪数据进行特征提取处理，提取出具有代表性和关键性的特征信息，以得到网络数据特征。然后，通过设置一个合适的语义化转换算法对提取到的网络数据特征进行数据语义化处理，通过JSON解密、JSON格式化、JSON映射等方法来实现，以此加速大语言模型的分析速度，最终得到网络语义化数据。

本发明实施例通过对网络语义化数据进行特定词汇提取、数据清洗、去重、标记化、分词、停用词过滤、词形还原、低频词过滤等预处理步骤后，以得到网络语义化特定数据集。然后，通过构建一个适当的大语言模型，并将网络语义化特定数据集作为该大语言模型的输入进行网络威胁分析，最终得到网络威胁推理结果。

本发明实施例通过使用网络微调技术对大规模预先训练的大语言模型进行微调训练，学习到非常泛化的语言表示，使其能够适应特定的网络威胁推理任务，以得到网络威胁推理优化结果。然后，通过使用自适应适配技术对网络威胁推理优化结果进行适配处理，以适应新的网络威胁类型和场景，最终得到网络威胁适配结果。

本发明实施例通过设置一个合适的漏洞检测分析算法对网络威胁适配结果中每个网络威胁事件进行漏洞检测，识别网络威胁事件中可能存在或遗漏的漏洞并进行关联分析，以得到网络威胁漏洞检测结果。然后，根据得到的网络威胁漏洞检测结果制定相应的网络威胁检测分析报告，并通过利用网络威胁检测分析报告进行相应的网络威胁分析管理策略。

优选地，步骤S1包括以下步骤：

步骤S11：通过行为采集技术对日志文件进行行为数据采集处理，以得到网络用户行为数据；

步骤S12：通过数据采集工具获取与网络相关的数据，以得到网络通信数据；

步骤S13：通过多服务商API接口利用多服务商API密钥对与网络相关的数据进行解密分析处理，以得到网络API解密数据；

步骤S14：利用数据整合算法对网络用户行为数据、网络通信数据以及网络API解密数据进行整合处理，得到网络数据；

其中，数据整合算法函数如下所示：

式中，Y为网络数据，n为参与数据整合过程的整合数据源数量，m_i为第i个整合数据源中的数据数量，exp为指数函数，x_ij为第i个整合数据源中第j个数据的向量形式，为第i个整合数据源的加权转置权重向量，x_ik为第i个整合数据源中第k个数据的向量形式，μ_i为第i个整合数据源的均值，σ_i为第i个整合数据源的标准差，α_i为第i个整合数据源的高斯正弦函数振幅值，β_i为第i个整合数据源的高斯正弦函数相移，γ_i为第i个整合数据源的高斯正弦函数常数项，δ_i为第i个整合数据源的高斯正弦函数极限值，ε为网络数据的修正值；

步骤S15：利用网络降噪算法对网络数据进行降噪处理，得到网络降噪数据。

作为本发明的一个实施例，参考图3所示，为图2中步骤S1的详细步骤流程示意图，在本实施例中步骤S1包括以下步骤：

本发明实施例通过使用行为采集技术对日志文件进行行为数据采集，获取用户在网络空间中的操作行为数据，其中包括用户浏览记录、搜索关键词、点击行为、购物行为等数据信息，最终得到网络用户行为数据。

本发明实施例首先根据需要选择相应的数据采集工具，例如Wireshark、Tcpdump等，然后，根据数据采集需求，设置采集网络流量的端口、协议、时间范围等参数，利用选定的数据采集工具进行数据采集，获取与网络相关的数据，最终得到网络通信数据。

本发明实施例通过多服务商API接口获取多服务商API密钥，通过多服务商API密钥利用HTTP协议向网络空间内与网络相关的数据发送请求，并获取多服务商API密钥响应数据，利用多服务商API密钥响应数据进行解密和分析，最终得到网络API解密数据。

本发明实施例结合权重函数和高斯正弦函数构建一个合适的数据整合算法对网络用户行为数据、网络通信数据以及网络API解密数据进行数据整合，以获得更全面、准确和可靠的数据，最终得到网络数据。

其中，数据整合算法函数如下所示：

本发明构建了一个数据整合算法函数的公式，用于对网络用户行为数据、网络通信数据以及网络API解密数据进行整合处理，该数据整合算法对来自不同数据源的数据进行整合处理，以获得更全面、准确和可靠的网络数据。另外，数据整合算法可以采用加权和或者加权平均的方式，将来自不同数据源的数据进行综合，并通过高斯正弦函数等方式对数据进行建模和拟合，以提高数据的准确性和可靠性。该算法函数公式充分考虑了参与数据整合过程的整合数据源数量n，第i个整合数据源中的数据数量m_i，指数函数exp，第i个整合数据源中第j个数据的向量形式x_ij，第i个整合数据源的加权转置权重向量第i个整合数据源中第k个数据的向量形式x_ik，第i个整合数据源的均值μ_i，第i个整合数据源的标准差σ_i，第i个整合数据源的高斯正弦函数振幅值α_i，第i个整合数据源的高斯正弦函数相移β_i，第i个整合数据源的高斯正弦函数常数项γ_i，第i个整合数据源的高斯正弦函数极限值δ_i，网络数据的修正值ε，其中通过第i个整合数据源中的数据数量m_i，指数函数exp，第i个整合数据源中第j个数据的向量形式x_ij，第i个整合数据源的加权转置权重向量/>以及第i个整合数据源中第k个数据的向量形式x_ik构成了一种权重函数关系/>该公式还通过第i个整合数据源中第j个数据的向量形式x_ij，第i个整合数据源的均值μ_i，第i个整合数据源的标准差σ_i，第i个整合数据源的高斯正弦函数振幅值α_i，第i个整合数据源的高斯正弦函数相移β_i，第i个整合数据源的高斯正弦函数常数项γ_i以及第i个整合数据源的高斯正弦函数极限值δ_i构成了一种高斯正弦函数关系/>根据网络数据Y与以上各参数之间的相互关联关系构成了一种函数关系：

该算法函数公式实现了对网络用户行为数据、网络通信数据以及网络API解密数据的数据整合过程，同时，通过网络数据的修正值ε的引入可以根据实际情况进行调整，从而提高数据整合算法的准确性和适用性。

本发明实施例通过构建一个适当的网络降噪算法对网络数据进行降噪处理，以消除网络数据中噪声源的影响，最终得到网络降噪数据。

本发明通过使用行为采集技术对日志文件进行行为数据采集，可以获取到用户在网络空间中的操作行为数据，例如浏览网页、发送电子邮件等，这样的数据收集可以帮助网络安全管理人员对用户的行为进行追踪和分析，发现潜在的安全隐患。通过数据采集工具获取与网络相关的数据，可以包括网络设备、流量、协议等相关信息。通过该数据采集可以获得网络通信数据的源头，为后续的数据分析提供数据的基础。然后，通过多服务商API接口利用多服务商API密钥对与网络相关的数据进行解密分析，可以对加密的网络数据进行解密并提取其内容，例如解密SSL/TLS通信内容、解密VoIP通信内容等。这样的数据处理方式可以帮助网络安全管理人员获取通信的详细内容和行为。通过设置一个合适的数据整合算法对网络用户行为数据、网络通信数据以及网络API解密数据进行整合处理，可以将这些不同类型和来源的数据综合使用，整合出网络数据。该数据整合算法基于加权矩阵的方法，将不同数据源中的数据进行加权和，并加入高斯正弦函数模型，将数据整合成为一维向量。这样的数据整合方式可以弥补各个数据源之间信息的差异，从而提高整合数据的准确性和综合性。最后，利用网络降噪算法对网络数据进行降噪处理，可以去除网络数据中的噪声和干扰。该网络降噪算法的主要工作是去除同一数据源中和不同数据源中的噪声，使得网络数据更具有可解释性和可靠性。这样的数据处理方式可以帮助网络安全管理人员更加准确地分析网络数据。

优选地，步骤S15包括以下步骤：

步骤S151：利用网络降噪算法对网络数据进行噪声值计算，得到网络数据噪声值；

其中，网络降噪算法函数如下所示：

式中，e为网络数据噪声值，为在所有可能的第r个网络数据X_r中的噪声最小化函数，N为网络数据中的数据数量，f(X_r)为第r个网络数据的降噪算法函数，y_Ur为经过降噪后得到的目标网络数据输出，/>为第r个网络数据的噪声方差，λ为正则化系数，W为网络数据中的潜在影响因素，R为潜在影响因素空间，g(W)为预设的潜在影响因素空间的高阶分布函数，h(W,X_r)为潜在影响因素与第r个网络数据之间的映射关系函数，∈为网络数据噪声值的修正值；

步骤S152：根据预设的网络数据噪声阈值对网络数据噪声值进行判断，当网络数据噪声值大于或等于预设的网络数据噪声阈值时，则剔除该网络数据噪声值对应的网络数据，得到网络降噪数据；

步骤S153：根据预设的网络数据噪声阈值对网络数据噪声值进行判断，当网络数据噪声值小于预设的网络数据噪声阈值时，则直接将该网络数据噪声值对应的网络数据定义为网络降噪数据。

作为本发明的一个实施例，参考图4所示，为图3中步骤S15的详细步骤流程示意图，在本实施例中步骤S15包括以下步骤：

本发明实施例通过设置合适的噪声最小化函数、降噪算法函数、网络数据中的潜在影响因素、预设的潜在影响因素空间的高阶分布函数、潜在影响因素与网络数据之间的映射关系函数以及相关参数构成一个适当的网络降噪算法，通过构建的网络降噪算法对网络数据进行噪声值计算，最终得到网络数据噪声值。

其中，网络降噪算法函数如下所示：

式中，e为网络数据噪声值，为在所有可能的第r个网络数据X_r中的噪声最小化函数，N为网络数据中的数据数量，f(X_r)为第r个网络数据的降噪算法函数，y_r为经过降噪后得到的目标网络数据输出，/>为第r个网络数据的噪声方差，λ为正则化系数，W为网络数据中的潜在影响因素，R为潜在影响因素空间，g(W)为预设的潜在影响因素空间的高阶分布函数，h(W,X_r)为潜在影响因素与第r个网络数据之间的映射关系函数，∈为网络数据噪声值的修正值；

本发明构建了一个网络降噪算法函数的公式，用于对网络数据进行噪声值计算，为了消除网络数据中的噪声源对后续的大语言模型的构建过程的影响，需要对网络数据进行降噪处理，以得到更加干净、准确的网络数据，通过该网络降噪算法能够有效地去除网络数据中的噪声和干扰数据，从而提高网络数据的准确性和可靠性。该算法函数公式充分考虑了在所有可能的第r个网络数据Xr中的噪声最小化函数网络数据中的数据数量N，第r个网络数据的降噪算法函数f(X_r)，经过降噪后得到的目标网络数据输出y_r，第r个网络数据的噪声方差/>正则化系数λ，网络数据中的潜在影响因素W，潜在影响因素空间R，预设的潜在影响因素空间的高阶分布函数g(W)，潜在影响因素与第r个网络数据之间的映射关系函数h(W,X_r)，根据网络数据噪声值e与以上各参数之间的相互关联关系构成了一种函数关系/>该算法函数公式实现了对网络数据的噪声值计算，同时，通过网络数据噪声值的修正值∈的引入可以根据实际情况进行调整，从而提高网络降噪算法的准确性和鲁棒性。

本发明实施例根据预设的网络数据噪声阈值，判断计算得到的网络数据噪声值是否超过预设的网络数据噪声阈值，当网络数据噪声值大于或等于预设的网络数据噪声阈值时，说明该网络数据噪声值对应的网络数据中的噪声源的干扰影响较大，则剔除该网络数据噪声值对应的网络数据，最终得到网络数据降噪数据。

本发明实施例根据预设的网络数据噪声阈值，判断计算得到的网络数据噪声值是否超过预设的网络数据噪声阈值，当网络数据噪声值小于预设的网络数据噪声阈值时，说明该网络数据噪声值对应的网络数据中的噪声源的干扰影响较小，则直接将该网络数据噪声值对应的网络数据定义为网络数据降噪数据。

本发明首先通过使用合适的网络降噪算法对网络数据进行噪声值计算，由于网络数据中可能存在噪声干扰或异常噪声源等情况，会对后续的大语言模型的构建和网络威胁分析工作的准确度和可靠性造成不良影响，所以需要设置一个适当的网络降噪算法对网络数据进行噪声值计算，能够识别和测量出网络数据中存在的噪声和干扰信号，从源头上去除噪声信号，从而提高网络数据的准确性和可靠性。该网络降噪算法通过结合噪声最小化函数、降噪算法函数、网络数据中的潜在影响因素、预设的潜在影响因素空间的高阶分布函数以及潜在影响因素与网络数据之间的映射关系函数对网络数据进行降噪处理，并通过修正值对降噪处理过程进行调整和优化，以获得最佳的降噪效果和计算结果，从而较为精确地计算出网络数据噪声值。然后，根据具体的数据降噪处理需求和数据质量标准，通过设定合适的网络数据噪声阈值对计算得到的网络数据噪声值进行判断，判断哪些网络数据需要进行剔除，哪些网络数据可以被保留，能够有效地剔除网络数据噪声值较大的网络数据，避免这些网络数据噪声值较大的网络数据对整体数据的影响，有助于进一步提高网络数据的质量，减少不必要的干扰和误差，从而保证了网络数据的准确性和可靠性。最后，通过使用预设的网络数据噪声阈值对网络数据噪声值进行判断，将网络数据噪声值较小的网络数据定义为网络降噪数据，可以得到更加准确和可靠的网络数据，这些网络数据噪声值较小的数据较少受到噪声的干扰，可以为后续的大语言模型的构建和网络威胁分析提供更加稳定的数据基础，从而提高网络降噪数据的可用性和有效性。

优选地，步骤S2包括以下步骤：

步骤S21：利用格式转换技术对网络降噪数据进行数据格式转换处理，得到网络简易数据；

本发明实施例通过使用格式转换技术对降噪后的网络降噪数据进行数据格式转换，将复杂且混乱的网络降噪数据转换为可读性更高、更易于处理的数据格式，最终得到网络简易数据。

步骤S22：利用特征提取技术对网络简易数据进行特征提取处理，得到网络数据特征；

本发明实施例通过特征提取技术对数据格式转换后的网络简易数据进行特征提取处理，提取出具有代表性和关键性的特征信息，最终得到网络数据特征。

步骤S23：利用语义化转换算法对网络数据特征进行数据语义化处理，得到网络语义化数据。

本发明实施例通过设置一个合适的语义化转换算法对提取到的网络数据特征进行数据语义化处理，通过JSON解密、JSON格式化、JSON映射等方法来实现，以此加速大语言模型的分析速度，最终得到网络语义化数据。

本发明通过使用格式转换技术对网络降噪数据进行数据格式转换处理，可以将复杂且混乱的网络数据转换成为更加精简、简洁的网络简易数据。这样的数据处理方式可以去除无用、冗余等数据信息，提高数据的质量和可读性，并为后续步骤提供更加可靠和易于处理的基础数据。然后，通过利用特征提取技术对网络简易数据进行特征提取处理，可以从网络简易数据中提取出具有代表性和关键性的特征信息，通过这些特征数据的提取和加工，可以对网络数据做出更准确和迅速的描述和分析，加快网络数据分析和大语言模型建立的相关工作。最后，通过使用一个适当的语义化转换算法对网络数据特征进行数据语义化处理，可以将提取到的网络数据特征转化为更加具有含义的语义化描述信息。例如，将IP地址解析为地理位置信息或者网络服务提供商信息、将协议解析为TCP或UDP、将时间戳转化为具体时间等。这样的语义化转换可以增强数据的信息量和表现力，使得网络数据描述更加精细、准确和有意义。

优选地，步骤S23包括以下步骤：

步骤S231：构建语义化转换算法，其中语义化转换算法包括JSON解密算法、JSON格式化算法和JSON映射算法；

本发明实施例通过构建一个合适的语义化转换算法，该语义化转换算法包括JSON解密算法、JSON格式化算法和JSON映射算法，其中JSON解密算法是将网络数据特征中的加密数据进行解密处理，JSON格式化算法是将解密后的网络数据进行JSON格式化转换，使其符合特定的格式要求，而JSON映射算法是将格式化后的网络格式化数据映射为语义化的信息。

步骤S232：获取JSON解析数据库，基于JSON解析数据库利用JSON解密算法对网络数据特征进行解密处理，得到网络JSON解密数据；

本发明实施例通过获取一个包含特定键值信息和对应数值信息的JSON解析数据库，使用JSON解析数据库中的特定键值信息和对应数值信息对网络数据特征进行解密处理，最终得到网络JSON解密数据。

步骤S233：利用JSON格式化算法对网络JSON解密数据进行格式化处理，得到网络格式化数据；

本发明实施例通过使用JSON格式化算法对网络JSON解密数据进行格式化处理，将复杂的网络JSON解密数据转换成更加清晰且易于处理的JSON格式数据，最终得到网络格式化数据。

步骤S234：利用JSON映射算法对网络格式化数据进行映射处理，得到网络语义化数据。

本发明实施例通过使用JSON映射算法将网络格式化数据与特定的数据格式进行映射处理，通过数据查询、关键字匹配、数据类型转换等步骤将网络格式化数据映射为语义化的信息，提取出与攻击类型、攻击者、受害者、漏洞名称、CVE编号等相关的数据，最终得到网络语义化数据。

本发明通过构建语义化转换算法，该语义化转换算法包括JSON解密算法、JSON格式化算法和JSON映射算法，可分别实现对网络数据的解密、格式化和映射处理。这些算法的设计和实现使得网络数据转换成为更加可读、可理解、可解释的形式，有助于后续网络数据威胁分析和建模任务。通过获取JSON解析数据库，并在该JSON解析数据库的帮助下，可以使用JSON解密算法对网络数据特征进行解密处理，该JSON解密算法的使用可以有效地解密加密过的网络原始数据，还原其本来的数据内容，为后续数据处理和分析提供更加准确和负责的基础数据。然后，通过利用JSON格式化算法对网络JSON解密数据进行格式化处理，可以将复杂的JSON格式数据转换成更加清晰且易于处理的形式，并将其归纳为有序的层级结构。这样的格式化转换可以简化网络数据的处理、分析和理解，有助于提高算法执行和数据分析的效率。最后，通过利用JSON映射算法对网络格式化数据进行映射处理，可以将网络格式化数据映射为语义化的信息，如攻击类型、攻击者、受害者、漏洞名称、CVE编号等，以提取含义更深层的数据特征，为后续数据分析和建模任务提供更加有价值的数据支持。通过获取JSON解析数据库、实现JSON解密算法、JSON格式化算法以及JSON映射算法等操作，可以将网络数据转换成为更加易于分析和理解的语义化数据，从而提高数据分析过程的准确性和效率，有助于提升网络安全的防范和监测能力。

优选地，步骤S3包括以下步骤：

步骤S31：利用自然语言处理技术对网络语义化数据进行特定词汇提取处理，得到网络语义化特定数据；

本发明实施例通过使用自然语言处理技术对网络语义化数据进行特定词汇提取，从网络语义化数据提取出与网络威胁相关的关键词汇，例如攻击类型、攻击者、受害者、漏洞名称、CVE编号等数据信息，最终得到网络语义化特定数据。

步骤S32：对网络语义化特定数据进行数据预处理，得到网络语义化特定数据集；

本发明实施例通过对网络语义化特定数据进行数据清洗、去重、标记化、分词、停用词过滤、词形还原、低频词过滤等预处理步骤后，最终得到网络语义化特定数据集。

步骤S33：根据预设的大语言模型对网络语义化特定数据集进行网络威胁分析，得到网络威胁推理结果。

本发明实施例通过构建一个适当的大语言模型，将网络语义化特定数据集作为该大语言模型的输入进行网络威胁分析，最终得到网络威胁推理结果。

本发明通过使用自然语言处理技术对网络语义化数据进行特定词汇提取处理，可以有效地识别和提取与网络威胁相关的关键词汇，如攻击类型、攻击者、受害者、漏洞名称、CVE编号等，从而找出网络威胁的特征和痕迹。通过这一步骤的处理可以提高后续处理的准确性和效率，减少无关信息的干扰，同时为后续步骤提供更有针对性的数据支持。然后，通过对网络语义化特定数据进行数据预处理，可以包括数据清洗、去重、标记化、分词、停用词过滤、词形还原、低频词过滤等处理步骤。通过这些处理步骤可以使得网络语义化特定数据集更具有结构化和规范化，同时减少数据的冗余和噪声，增加数据的可解释性和可用性。而且，预处理可以优化训练模型过程中的运行速度和计算效率，从而提高后续模型的训练效果和预测能力。最后，根据预设的大语言模型对处理后的网络语义化特定数据集进行网络威胁分析，可以利用大规模的文本数据集或者小样本数据集进行训练，该模型结构具有强大的表达能力和特征抽取能力，可以高效地挖掘出网络威胁的特征和规律，并通过推理推断出可能存在的网络威胁。同时，该大语言模型具有较高的运算速度和计算效率，既可以实现在线威胁分析，也可以完成离线分析任务，具有广泛的应用价值和技术意义。

优选地，步骤S33包括以下步骤：

步骤S331：按照预设的划分规则将网络语义化特定数据集划分为网络语义化训练数据集、网络语义化验证数据集和网络语义化测试数据集；

本发明实施例通过将网络语义化特定数据集按照一定的划分比例划分为网络语义化训练数据集、网络语义化验证数据集合网络语义化测试数据集，根据预设的划分比例7：2：1将网络语义化特定数据集划分为70％的网络语义化训练数据集、20％的网络语义化验证数据集和10％的网络语义化测试数据集。

步骤S332：构建大语言模型，其中大语言模型包括模型训练、模型验证和模型测试；

本发明实施例根据实际情况构建大语言模型，该大语言模型包括模型训练、模型验证和模型测试，通过网络语义化训练数据集对大语言模型进行模型训练，网络语义化验证数据集对大语言模型进行模型验证，同时利用网络语义化测试数据集对大语言模型进行模型测试，用来提高大语言模型的泛化性能和鲁棒性。

步骤S333：将网络语义化训练数据集输入至构建的大语言模型进行模型训练，并通过交叉验证方法对模型参数进行优化处理，以得到大语言验证模型；利用大语言验证模型对网络语义化验证数据集进行模型验证，以得到测试模型；

本发明实施例通过将划分后的网络语义化训练数据集输入至构建的大语言模型中进行模型训练，并通过选择合适的交叉验证方法对模型参数进行优化处理，首先，将网络语义化训练数据集随机分为K个互不相交的子集，其中K通常取5或10，随机使用其中的K-1个子集作为模型的训练数据，剩余的1个子集作为验证数据，用来评估模型的性能，重复以上过程K次后，每次都将不同的子集作为验证数据来对模型进行评估，得到K个不同的评估结果。然后，计算K个评估结果的平均值，得到大语言验证模型的评估结果。最后，使用大语言验证模型对划分后的网络语义化验证数据集进行模型验证，以生成最终的测试模型。

步骤S334：利用测试模型对网络语义化测试数据集进行模型测试，得到优化的大语言模型；并将网络语义化特定数据集重新输入至优化的大语言模型进行网络威胁分析，得到网络威胁推理结果。

本发明实施例通过将划分后的网络语义化测试数据集输入至经过参数优化后的测试模型中进行模型测试，通过计算模型的准确率、召回率、F1值等指标，对模型参数进一步检查和优化处理，获得更高效更准确的优化的大语言模型，同时，将网络语义化特定数据集重新输入至优化的大语言模型中进行网络威胁分析，最终得到网络威胁推理结果。

本发明通过将网络语义化特定数据集划分为网络语义化训练数据集、网络语义化验证数据集和网络语义化测试数据集，可以确保模型在不同的数据集上都得到较好的性能表现，并防止过拟合等问题的发生。其中，网络语义化训练数据集用于对模型进行训练，网络语义化验证数据集用于优化模型参数和选择模型结构，网络语义化测试数据集用于评估模型的性能和鲁棒性。然后，构建大语言模型，可以利用大语言模型提取语义特征并捕捉网络安全相关的信息，从而实现更加准确和高效的网络威胁推理。该大语言模型包括模型训练、模型验证和模型测试三个阶段，可以在不同的数据集上完成相应的任务，保证大语言模型的质量和稳定性。同时，将网络语义化训练数据集输入至构建的大语言模型进行模型训练，并通过交叉验证方法对模型参数进行优化处理，可以寻求最佳的模型参数组合，从而提高大语言模型的泛化能力和预测准确性。利用大语言验证模型对网络语义化验证数据集进行模型验证，以得到测试模型，可以有效地验证模型的性能表现和判断模型是否过拟合等问题。通过这一步骤的处理，可以得到更加精细和优秀的大语言模型，进一步提高网络威胁推理的准确性。最后，通过利用测试模型对网络语义化测试数据集进行模型测试，可以评估模型在测试数据集上的性能表现和鲁棒性，从而确认大语言模型的有效性和可靠性。将网络语义化特定数据集重新输入至优化的大语言模型进行网络威胁分析，可以直接应用于网络空间内，以实现实时的威胁识别和安全防御。

优选地，步骤S4包括以下步骤：

步骤S41：利用网络微调技术对大语言模型进行微调训练处理，得到网络威胁推理优化结果；

本发明实施例通过使用网络微调技术对大规模预先训练的大语言模型进行微调训练，学习到非常泛化的语言表示，使其能够适应特定的网络威胁推理任务，提高其对于网络威胁的理解和推理能力，最终得到网络威胁推理优化结果。

步骤S42：基于网络威胁推理优化结果利用增量学习算法对大语言模型进行参数调整处理，并重新进行微调训练处理，得到网络威胁推理精确结果；

本发明实施例基于网络威胁推理优化结果利用合适的增量学习算法对大语言模型进行参数调整，以使其能够更好地适应新的网络威胁类型和场景，对调整后的大语言模型进行重新微调训练，进一步提高大语言模型的推理准确率和性能表现，最终得到网络威胁推理精确结果。

步骤S43：利用自适应适配技术对网络威胁推理精确结果进行自主适配处理，得到网络威胁适配结果。

本发明实施例首先确定自适应适配技术的适配对象，然后通过使用自适应适配技术对网络威胁推理精确结果进行适配处理，以适应新的网络威胁类型和场景，最终得到网络威胁适配结果。

本发明通过利用网络微调技术对大语言模型进行微调训练处理，可以通过对大规模预先训练的大语言模型进行微调，使其更加适合特定的网络威胁推理任务，从而提高大语言模型的推理效果。通过这一步骤，可以有效地提高大语言模型的准确性和可靠性，从而为后续的网络威胁推理提供坚实的基础。然后，基于经过微调训练得到的网络威胁推理优化结果利用合适的增量学习算法对大语言模型进行参数调整处理，并重新进行微调训练，可以进一步提高大语言模型的准确性和稳定性，满足高精度、高效率的网络威胁推理需求。而增量学习算法可以利用已有的模型参数进行学习，从而加快大语言模型的训练速度并提高大语言模型的适应性。最后，通过利用自适应适配技术对网络威胁推理精确结果进行自主适配处理，可以根据实时的网络威胁情况自动调整模型参数，从而实现大语言模型的无缝适配。该自适应适配技术可以提高大语言模型的灵活性和适应性，适应不同场景下的网络威胁推理需求，从而提高网络安全的水平。

优选地，步骤S42中的增量学习算法的函数公式具体为：

式中，θ_t+1为第t+1轮迭代的大语言模型参数，θ_t为第t轮迭代的大语言模型参数，a为控制参数更新幅度学习率，为第t轮迭代的大语言模型参数θ_t的梯度运算符，/>为第t轮迭代的大语言模型参数θ_t的任务损失函数，/>为第t轮迭代的大语言模型参数θ_t的L1正则化项，/>为L1正则化项的权重系数，/>为第t轮迭代的大语言模型参数θ_t的L2正则化项，/>为L2正则化项的权重系数，/>为第t轮迭代的大语言模型参数θ_t的积分损失函数，/>为积分损失函数的权重系数，/>为积分参数变量，η为大语言模型参数的修正值。

本发明构建了一个增量学习算法函数的公式，用于对大语言模型进行参数调整处理，该增量学习算法基于网络威胁推理优化结果对已有的大语言模型进行参数调整，以获得更精确的网络威胁推理结果，通过结合任务损失函数、L1正则化项、L2正则化项、积分损失函数以及相关权重系数进行梯度迭代下降处理，从而获取更精确的大语言模型参数，以满足高精度、高效率的网络威胁推理需求。该算法函数公式充分考虑了第t轮迭代的大语言模型参数θ_t，控制参数更新幅度学习率a，第t轮迭代的大语言模型参数θ_t的梯度运算符第t轮迭代的大语言模型参数θ_t的任务损失函数/>第t轮迭代的大语言模型参数θ_t的L1正则化项/>L1正则化项的权重系数/>第t轮迭代的大语言模型参数θ_t的L2正则化项/>L2正则化项的权重系数/>第t轮迭代的大语言模型参数θ_t的积分损失函数积分损失函数的权重系数/>积分参数变量/>根据第t+1轮迭代的大语言模型参数θ_t+1与以上各参数之间的相互关联关系构成了一种函数关系：

该算法函数公式实现了对大语言模型的参数调整处理，同时，该算法函数中的大语言模型参数的修正值η可以根据实际情况进行调整，从而提高增量学习算法的准确性和泛化能力。

优选地，步骤S5包括以下步骤：

步骤S51：利用漏洞检测分析算法对网络威胁适配结果进行漏洞关联分析，得到网络威胁漏洞检测结果；

本发明实施例通过设置合适的漏洞检验函数以及影响程度函数构建了一个适当的漏洞检测分析算法，通过构建的漏洞检测分析算法对网络威胁适配结果中每个网络威胁事件进行漏洞检测，识别网络威胁事件中可能存在或遗漏的漏洞并进行关联分析，最终得到网络威胁漏洞检测结果。

其中，漏洞检测分析算法函数如下所示：

式中，V(M)为漏洞检测分析算法，M为网络威胁适配结果中的漏洞数量，u₁,u₂,…,u_M为待检测的网络威胁适配结果数据，I(u₁,u₂,…,u_M)为漏洞检验函数，F(u₁,u₂,…,u_M)为漏洞对网络威胁适配结果的影响程度函数，ψ为漏洞检测分析算法的修正值；

本发明构建了一个漏洞检测分析算法函数的公式，用于对网络威胁适配结果进行漏洞关联分析，该漏洞检测分析算法可以适用于不同类型的网络威胁适配结果，通过结合漏洞检验函数和影响程度函数对网络威胁适配结果进行漏洞检测，其中漏洞检验函数用于判断网络威胁适配结果中的每个网络威胁事件是否存在漏洞问题，从而进行排查和修复，而影响程度函数用于评估每个漏洞对整个网络空间安全的影响程度和危害等级，能够为漏洞修复提供可靠的依据。该算法函数公式充分考虑了网络威胁适配结果中的漏洞数量M，待检测的网络威胁适配结果数据u₁,u₂,…,u_M，漏洞检验函数I(u₁,u₂,…,u_M)，漏洞对网络威胁适配结果的影响程度函数F(u₁,u₂,…,u_M)，根据漏洞检测分析算法V(M)与以上各参数之间的相互关系构成了一种函数关系该公式实现了对网络威胁适配结果的漏洞检测关联分析，同时，通过漏洞检测分析算法的修正值ψ的引入可以根据实际情况进行调整，从而提高漏洞检测分析算法的准确性和适用性。

步骤S52：利用无线传输技术将网络威胁漏洞检测结果传输至远程应用服务终端，通过远程应用服务终端对网络威胁漏洞检测结果进行自主学习分析，得到网络威胁行为特征；

本发明实施例通过使用无线传输技术将得到的网络威胁漏洞检测结果传输至远程应用服务终端，在远程应用服务终端中，通过自主学习分析，对网络威胁漏洞检测结果进行进一步分析，针对特定行为进行用户指令分析，找到属于网络威胁的行为特征，最终得到网络威胁行为特征。

步骤S53：根据网络威胁行为特征制定网络威胁检测分析报告，并利用网络威胁检测分析报告以执行相应的网络威胁分析管理策略。

本发明实施例根据得到的网络威胁行为特征制定相应的网络威胁检测分析报告，将网络威胁检测分析报告通过可视化展示方式呈现给网络安全管理人员，网络安全管理人员通过使用网络威胁检测分析报告进行相应的网络威胁分析管理策略。

本发明通过设置一个合适的漏洞检测分析算法对网络威胁适配结果进行漏洞关联分析，可以通过对网络威胁适配结果进行漏洞检测并对检测结果进行分析，从而识别网络威胁事件中可能存在或遗漏的漏洞威胁事件并进行关联分析，以此得到准确的漏洞检测结果。通过该漏洞检测分析算法可以有效地提高漏洞检测的准确性和及时性，并帮助快速识别漏洞风险，及时优化安全措施，从而保障网络空间的安全性。然后，通过使用无线传输技术将网络威胁漏洞检测结果传输至远程应用服务终端，并通过远程应用服务终端对网络威胁漏洞检测结果进行自主学习分析，可以将网络威胁漏洞检测结果迅速传输至云端进行处理和分析。通过自主学习分析，可以在短时间内获得更准确、更可靠的网络威胁行为特征，从而为后续的威胁检测和管理提供更全面的依据。最后，根据网络威胁行为特征制定网络威胁检测分析报告，并利用制定的网络威胁检测分析报告执行相应的网络威胁分析管理策略，可以通过对网络威胁行为特征进行分析，及时采取相应的管理措施，从而防止网络威胁事件的再次发生。通过制定网络威胁检测分析报告并及时更新，能够使网络安全管理人员了解网络空间安全状况并制定相应的网络威胁应对策略，从而为网络安全领域带来更好的网络威胁检测精度和更高的安全防范效率。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于大语言模型的网络威胁分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S1包括以下步骤：

其中，数据整合算法函数如下所示：

3.根据权利要求2所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S15包括以下步骤：

其中，网络降噪算法函数如下所示：

4.根据权利要求1所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S2包括以下步骤：

5.根据权利要求4所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S23包括以下步骤：

6.根据权利要求1所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S3包括以下步骤：

7.根据权利要求6所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S33包括以下步骤：

8.根据权利要求1所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S4包括以下步骤：

9.根据权利要求8所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S42中的增量学习算法的函数公式具体为：

10.根据权利要求1所述的基于大语言模型的网络威胁分析方法，其特征在于，步骤S5包括以下步骤：

其中，漏洞检测分析算法函数如下所示：