CN116455861B

CN116455861B - 一种基于大数据的计算机网络安全监测系统及方法

Info

Publication number: CN116455861B
Application number: CN202310406571.4A
Authority: CN
Inventors: 刘辉
Original assignee: Fujian Shuzhi Minzheng Technology Co ltd
Current assignee: Fujian Shuzhi Minzheng Technology Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-11-24
Anticipated expiration: 2043-04-17
Also published as: CN116455861A

Abstract

本发明公开了一种基于大数据的计算机网络安全监测系统及方法，属于网络安全监测领域，该网络安全监测系统包括信息采集模块、数据分析模块、数据库和转发显示模块，信息采集模块用于采集用户使用计算机时的数据信息，数据分析模块用于对采集的数据进行分析处理，转发显示模块用于根据分析结果，通过时间节点选择聊天内容，对用户展示转发结果。本发明通过分析用户输入的关键词，对用户的历史聊天内容进行分析，提取包含关键词的内容信息，通过知识图谱智能选取符合关键词的聊天内容进行转发，对不相关的内容进行筛除，用户根据时间节点选取想要转发的历史聊天内容，提高了用户转发信息的效率，提升了用户的使用体验。

Description

一种基于大数据的计算机网络安全监测系统及方法

技术领域

本发明涉及网络安全监测领域，具体为一种基于大数据的计算机网络安全监测系统及方法。

背景技术

随着科技的不断发展，网络已成为我们现实生活中一个重要的组成部分，网络是由节点和连线构成，表示诸多对象及其相互联系，在计算机领域中，网络是信息传输、接收、共享的虚拟平台，通过它把各个点、面、体的信息联系到一起，从而实现这些资源的共享。网络是人类发展史来最重要的发明，提高了科技和人类社会的发展。采用计算机进行网络聊天成为人们日常的基本交流方式，促进了人们的学习、生活和人际交往等。

人们在使用计算机网络聊天时，常常需要将信息进行转发，目前，对于少量信息的转发，通常是通过用户逐条选择或者是选择一段聊天内容进行整个选取，但是对于大量信息需要转发时，选取的内容存在数量限制，难以一次完全转发，同时，当出现多个聊天主题时，存在许多不相关的内容夹杂在聊天记录中间，当用户不想转发这部分内容时，只能通过手动取消，十分消耗时间，给用户带来极差的使用体验。

由此看来，如何根据用户输入关键词智能选取历史聊天记录，如何对选取的历史聊天记录进行筛选是十分有必要的。因此，需要一种基于大数据的计算机网络安全监测系统及方法。

发明内容

本发明的目的在于提供一种基于大数据的计算机网络安全监测系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于大数据的计算机网络安全监测方法，包括下列步骤：

S1、采集用户输入的关键词信息，对用户通过网络发送的历史内容进行识别检测；

S2、根据识别采集的历史内容，提取历史发送内容中的关键词信息，与用户输入的关键词信息相匹配，提取包含关键词的内容；

S3、根据分析结果，对信息的相关性指数进行分析处理，对信息进行筛选；

S4、根据筛选结果，智能选择用户需要转发的内容信息，并对用户进行展示。

进一步的，在步骤S2中，包括下列步骤：

S201、根据采集的用户历史发送内容，形成关键词历史文本信息；

S202、根据用户输入的关键词历史文本信息，对候选关键词信息进行选择；

关键词历史文本信息形成集合M，其中的元素数量为M₁，一个目标关键词的上下文单词形成子集合g_α，所有上下文单词集合形成集合G＝{g₁，g₂，…，g_r}，其中，r表示为上下文单词子集合的数量，上下文选择范围由相关技术人员自行设定；

当输入的目标关键词为单个词c时，通过下列公式对关键词相关度f1进行计算：

其中，R表示为相关性函数，例如extended gloss overlap算法等，由相关技术人员进行设定；

当输入的目标关键词为多个词时，目标关键词形成集合C＝{c₁，c₂，…，c_n}，其中，n表示为目标关键词数量，上下文的词语形成集合G’，上下文选择范围由相关技术人员自行设定，通过下列公式对关键词相关度f₂进行计算：

其中，c_i表示为目标关键词集合中的一个目标关键词；

当关键词相关度最大时，表示该词的词义是目标关键词的正确词义，该词语成为疑似关键词；

S203、根据候选关键词，通过词语之间的相关度计算，对关键词进行筛选合并；

疑似关键词形成集合Q，Q₁表示为集合内的元素数量，通过下列公式对疑似关键词c_l的词语指数∈进行计算：

对所有的疑似关键词的词语指数进行计算并排序，词语指数越大，则表示该疑似关键词与疑似关键词集合中的其他词的关联程度越大；

S204、通过建立关键词提取模型，对关键词进行提取，提取包含该关键词的聊天内容。

通过下列公式对疑似关键词的关键词概率P进行计算：

其中，P₁表示为该疑似关键词为关键词的概率，P₂表示为该疑似关键词不是关键词的概率，P_归表示为归一化处理参数，P_1频表示为该疑似关键词是关键词时的词语出现频率，P_1位表示为该疑似关键词是关键词时的第一次出现的平均位置，P_1数表示为该疑似关键词是关键词时的组成词语单词数量，P_1指表示为该疑似关键词是关键词时的词语指数，P_2频表示为该疑似关键词不是关键词时的词语出现频率，P_2位表示为该疑似关键词不是关键词时的第一次出现的平均位置，P_2数表示为该疑似关键词不是关键词时的组成词语单词数量，P_2指表示为该疑似关键词不是关键词时的词语指数；

对所有疑似关键词的关键词概率进行计算并排序，当概率最大时，表示为需要提取的关键词，实现对关键词的提取。

进一步的，在步骤S3中，包括下列步骤：

S301、根据提取的包含关键词的内容，通过构建聊天内容知识图谱，对聊天内容进行提取；

S302、根据提取的聊天内容，对信息的相关性指数进行分析，对聊天内容进行筛选；

S303、根据筛选结果，获取需要转发的聊天内容。

进一步的，在步骤S301中，包括下列步骤：

S301-1、根据提取的包含关键词的内容，得到该内容中的词语为c_x，形成集合X＝{c₁，c₂，…，c_s}，其中，s表示为词语数量；设置词语的向量矩阵H为u_H×d矩阵，其中，u_H表示为总的词语数量，d表示为知识图谱的实体和关系的嵌入维度，嵌入是指将一个高维空间嵌入到一个维数低得多的连续向量空间中，嵌入维度是指向量中的元素数量；设置矩阵L，L_i表示每个词语的出现次数，知识图谱是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从document级别降到data级别，聚合大量知识，从而实现知识的快速响应和推理，知识图谱的基本单位，是“头实体-关系-尾实体”构成的三元组，这也是知识图谱的核心；

S301-2、通过下列公式对词语c_x的嵌入表示β进行计算：

β＝(L_i⊙I_j)H；

其中，I表示为权重矩阵，I_j表示为矩阵I中的元素，相关技术人员在数据库中预先设置每个词语的权重，根据提取内容中的词语自动构成与矩阵L结构一致的权重矩阵，⊙表逐个元素相乘；

S301-3、通过下列公式对评分函数f进行计算：

f＝-τ||β₁-β₂||-(1-τ)||β_头-v+β_尾||；

其中，τ表示为权重参数，由相关技术人员自行设定，β₁表示为头实体在文本信息的嵌入表示，β₂表示为尾实体在文本信息的嵌入表示，β_头表示为头实体在知识图谱的嵌入表示，β_尾表示为尾实体在知识图谱的嵌入表示；v表示为知识图谱中的关系的向量；

S301-4、设置输入三元组集合为Z，正确三元组为z_正，错误三元组为z_错；通过下列公式对损失函数f_损进行计算：

其中，γ表示为超参数，f_正表示为正确三元组的评分函数，f_正(z_正)表示自变量为z_正时的评分函数f_正的值，f_错表示为错误三元组的评分函数，f_错(z_错)表示自变量为z_错时的评分函数f_错的值；设定知识图谱中的头实体的向量为κ，知识图谱中的尾实体的向量为λ，当λ＝κ+v时，说明满足尾实体向量为头实体向量与关系向量的和，表示为正确三元组；反之，当当λ≠κ+v时，说明不满足尾实体向量为头实体向量与关系向量的和，表示为错误三元组；

S301-5、根据分析结果，构建聊天内容知识图谱，提取出与关键词相关的聊天内容。

进一步的，在步骤S302中，包含下列步骤：

S302-1、设置时间间隔为t，该时间间隔由相关技术人员进行设置，将聊天内容按照时间间隔进行分区，并进行编号，通过下列公式对内容概率P进行计算：

其中，X表示为在设置时间间隔内的编号模拟值，μ表示为聊天内容的编号，θ表示为时间间隔内的平均关键词数量，平均关键词数量指在第一预制时间内的关键词数量，第一预制时间为相关技术人员设置的定值；由于在不重叠时间区间内的聊天内容是随机的，因此，用户聊天内容相互独立；

对每个时间间隔的聊天内容概率进行计算，将概率由高到低进行排序，实现对聊天内容的优先级排序；通过对聊天内容的优先级排序，便于快速找到与用户输入关键词匹配度最高的聊天内容，提高了系统的分析速度，便于用户快速确定需要的内容信息，无需用户对整个内容进行长时间筛选检查；

S302-2、根据提取的聊天内容，从优先级最高的时间间隔的聊天内容开始进行筛选；

设置包含关键词的聊天内容为信息集A，对信息集A中的元素进行排序，得到等级a；未包含关键词的聊天内容为信息集B，对信息集B中的元素进行排序，得到等级b，排序方式由相关技术人员进行设定；

S302-3、通过下列公式对内容相关性指数ω进行计算：

其中，δ表示为信息集中的数据个数；

S302-4、设置内容相关性指数阈值为ω_阈，当ω≥ω_阈时，表示聊天内容与包含关键词的内容相关，保持选择，反之，当ω＜ω_阈时，表示聊天内容与包含关键词的内容不相关，取消选择。

进一步的，在步骤S4中，根据筛选结果，选择用户需要转发的内容信息，通过计算机屏幕向用户进行提示，并将分析结果进行加密存储，按照优先级由高到低进行排序展示，用户选择需要转发的聊天记录，避免用户手动操作选择多项内容进行转发，避免了用户在大段需要转发的聊天内容中取消不需要转发的内容，避免用户在转发信息时将多余的信息转发给其他用户，保障了信息的安全性，便于用户快速找到与关键词相关的聊天内容，提高了系统的分析速度，节省了用户的时间，提高了用户的使用效率，增强了用户的使用体验。

一种基于大数据的计算机网络安全监测系统，所述网络安全监测系统包括：信息采集模块和数据分析模块；

所述信息采集模块的输出端与数据分析模块的输入端相连接；

所述信息采集模块用于采集用户使用计算机时的数据信息，包括历史内容采集单元和关键词采集单元，所述历史内容采集单元用于采集用户的历史聊天内容，所述关键词采集单元用于采集用户输入的关键词信息；

所述数据分析模块用于对采集的数据进行分析处理，包括关键词提取单元和内容筛选单元，所述关键词提取单元用于根据用户输入的关键词信息，对历史聊天内容中的关键词内容进行提取，所述内容筛选单元用于对内容相关性指数进行分析，筛选出与关键词相关的聊天内容。

进一步的，所述网络安全监测系统还包括：数据库；所述数据库输入端与信息采集模块的输出端相连接，数据库输入端与数据分析模块的输出端相连接；

所述数据库包括数据加密单元和数据存储单元，所述数据加密单元通过ECC加密算法，对数据采集和数据分析的过程进行加密，保证了用户的信息安全，避免信息泄露造成用户损失，ECC是椭圆加密算法，是一种公钥加密体制，其数学基础是利用椭圆曲线上的有理点构成Abel加法群上椭圆离散对数的计算困难性，主要优势是在某些情况下，它比其他的方法使用更小的密钥，比如RSA加密算法，提供相当的或更高等级的安全级别；所述数据存储单元通过散列存储方法，对采集的数据和分析结果进行存储，系统通过不断存储的数据，通过聚类算法进行机器学习，提高系统的分析准确性，散列存储又称hash存储，是一种力图将数据元素的存储位置与关键码之间建立确定对应关系的查找技术，散列是数组存储方式的一种发展，相比数组，散列的数据访问速度要高于数组，散列是能一种快速实现访问的存储方式；聚类分析又称群分析，它是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的，通常模式是一个度量的向量或者是多维空间中的一个点；聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性，聚类算法中最典型的代表就是K-Means算法。

进一步的，所述网络安全监测系统还包括：转发显示模块；所述转发显示模块的输入端与数据分析模块的输出端相连接；

所述转发显示模块包括内容选择单元和屏幕展示单元，所述内容选择单元用于根据分析的聊天内容优先级，将最终分析的聊天内容进行排序，用户根据优先级由高到低进行选择，避免出现根据关键词分析出的聊天记录全部转发，将不必要发送的聊天内容转发出去，提高了系统分析选取的准确性，同时根据优先级进行聊天内容排序，便于用户快速找到需要转发的聊天内容，所述屏幕展示单元用于将最终分析选择的转发聊天记录对用户进行展示，便于用户能够确认转发内容，提高了用户的转发效率，提升了用户的使用体验。

与现有技术相比，本发明所达到的有益效果是：

本发明通过采集用户输入的关键词和历史聊天内容，根据关键词信息对用户的历史聊天内容进行分析处理，提取聊天内容中包含关键词的内容信息，通过知识图谱智能选取与关键词相关的聊天内容进行转发，便于准确查找与关键词相关联的聊天内容，并通过设置时间间隔进行划分和编号，对不同时间间隔的聊天内容进行优先级排序，从优先级高的聊天内容开始对不相关的内容进行筛除，用户根据按照优先级排序的聊天内容，选取想要转发的历史聊天内容，提高了用户转发信息的效率，大大提高了系统的分析速度，便于用户快速找到需要转发的聊天内容，同时避免出现将多余无关的历史聊天内容误转发的情况，提升了用户的使用体验。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于大数据的计算机网络安全监测系统的模块组成示意图；

图2是本发明一种基于大数据的计算机网络安全监测方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明提供技术方案：一种基于大数据的计算机网络安全监测方法，包括下列步骤：

在步骤S2中，包括下列步骤：

历史文本信息形成集合M，其中的元素数量为M₁，一个目标关键词的上下文单词形成子集合g_α，所有上下文单词集合形成集合G＝{g₁，g₂，…，g_r}，其中，r表示为上下文单词子集合的数量，上下文选择范围由相关技术人员自行设定；

当输入的目标关键词为多个词时，目标关键词形成集合C＝{c₁，c₂，…，c_n}，其中，n表示为目标关键词数量，上下文的单词形成集合G’，上下文选择范围由相关技术人员自行设定，通过下列公式对关键词相关度f₂进行计算：

其中，c_i表示为目标关键词集合中的一个目标关键词；

通过下列公式对疑似关键词的关键词概率P进行计算：

在步骤S3中，包括下列步骤：

在步骤S301中，包括下列步骤：

S301-1、根据提取的包含关键词的内容，得到该内容中的词语为c_x，形成集合X＝{c₁，c₂，…，c_s}，x∈[1，s]，其中，s表示为词语数量；设置词语的向量矩阵H为u_H×d矩阵，其中，u_H表示为总的词语数量，d表示为知识图谱的实体和关系的嵌入维度，嵌入是指将一个高维空间嵌入到一个维数低得多的连续向量空间中，嵌入维度是指向量中的元素数量；设置矩阵L，L_i表示每个词语的出现次数，知识图谱是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从document级别降到data级别，聚合大量知识，从而实现知识的快速响应和推理，知识图谱的基本单位，是“头实体-关系-尾实体”构成的三元组，这也是知识图谱的核心；

S301-2、通过下列公式对词语c_x的嵌入表示β进行计算：

β＝(L_i⊙I_j)H；

S301-3、通过下列公式对评分函数f进行计算：

f＝-τ||β₁-β₂||-(1-τ)||β_头-v+β_尾||；

在步骤S302中，包含下列步骤：

S302-1、设置时间间隔为t，该时间间隔由相关技术人员进行设置，例如设置时间间隔为一天，将聊天内容按照时间间隔进行分区，并进行编号，通过下列公式对内容概率P进行计算：

S302-3、通过下列公式对内容相关性指数ω进行计算：

其中，δ表示为信息集中的数据个数；

S303、根据筛选结果，获取需要转发的聊天内容。

在步骤S4中，根据筛选结果，选择用户需要转发的内容信息，通过计算机屏幕向用户进行提示，并将分析结果进行加密存储，按照优先级由高到低进行排序展示，用户选择需要转发的聊天记录，避免用户手动操作选择多项内容进行转发，避免了用户在大段需要转发的聊天内容中取消不需要转发的内容，避免用户在转发信息时将多余的信息转发给其他用户，保障了信息的安全性，便于用户快速找到与关键词相关的聊天内容，提高了系统的分析速度，节省了用户的时间，提高了用户的使用效率，增强了用户的使用体验。

所述网络安全监测系统还包括：数据库；所述数据库输入端与信息采集模块的输出端相连接，数据库输入端与数据分析模块的输出端相连接；

所述网络安全监测系统还包括：转发显示模块；所述转发显示模块的输入端与数据分析模块的输出端相连接；

实施例1：

若向量矩阵权重矩阵/>矩阵/>则嵌入表示

实施例2：

若一用户通过关键词，提取了历史聊天内容，内容相关性指数阈值ω_阈＝0.8，若条对话框的聊天内容的内容相关性指数为表示聊天内容与包含关键词的内容相关，保持选择；若某条对话框的聊天内容的内容相关性指数为/> 此时表示聊天内容与包含关键词的内容不相关，取消选择，根据筛选结果，选择用户需要转发的内容信息，通过计算机屏幕向用户进行提示，并将分析结果进行加密存储，用户通过调节聊天内容时间点，选择需要转发的聊天记录。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的计算机网络安全监测方法，其特征在于：包括下列步骤：

S4、根据筛选结果，智能选择用户需要转发的内容信息，并对用户进行展示；

在步骤S2中，包括下列步骤：

S204、通过建立关键词提取模型，对关键词进行提取，提取包含该关键词的聊天内容；

在步骤S3中，包括下列步骤：

S303、根据筛选结果，获取需要转发的聊天内容；

在步骤S301中，包括下列步骤：

S301-1、根据提取的包含关键词的内容，得到该内容中的词语为c_x，形成集合X＝{c₁，c₂，…，c_s}，其中，s表示为词语数量；设置词语的向量矩阵H为u_H×d矩阵，其中，u_H表示为总的词语数量，d表示为知识图谱的实体和关系的嵌入维度；设置矩阵L，L_i表示为实体中每个词语的出现次数；

S301-2、通过下列公式对词语c_x的嵌入表示β进行计算：

β＝(L_i⊙I_j)H；

其中，I表示为权重矩阵，I_j表示为矩阵I中的元素，⊙表逐个元素相乘；

S301-3、通过下列公式对评分函数f进行计算：

f＝-τ||β₁-β₂||-(1-τ)||β_头-v+β_尾||；

其中，τ表示为权重参数，β₁表示为头实体在文本信息的嵌入表示，β₂表示为尾实体在文本信息的嵌入表示，β_头表示为头实体在知识图谱的嵌入表示，β_尾表示为尾实体在知识图谱的嵌入表示；v表示为知识图谱中的关系的向量；

S301-4、设置输入三元组集合为Z，正确三元组为z_正，错误三元组为z_错；

通过下列公式对损失函数f_损进行计算：

其中，γ表示为超参数，f_正表示为正确三元组的评分函数，f_正(z_正)表示自变量为z_正时的评分函数f_正的值，f_错表示为错误三元组的评分函数，f_错(z_错)表示自变量为z_错时的评分函数f_错的值；

2.根据权利要求1所述的一种基于大数据的计算机网络安全监测方法，其特征在于：在步骤S302中，包含下列步骤：

S302-1、设置时间间隔为t，将聊天内容按照时间间隔进行分区，并进行编号，通过下列公式对内容概率P进行计算：

其中，X表示为在设置时间间隔内的编号模拟值，μ表示为聊天内容的编号，θ表示为时间间隔内的平均关键词数量；

对每个时间间隔的聊天内容概率进行计算，将概率由高到低进行排序，实现对聊天内容的优先级排序；

对信息集A中的元素进行排序，得到等级a；未包含关键词的聊天内容为信息集B，对信息集B中的元素进行排序，得到等级b；

S302-3、通过下列公式对内容相关性指数ω进行计算：

其中，δ表示为信息集中的数据个数；

S302-4、设置内容相关性指数阈值为ω_阈，当ω≥ω_阈时，表示聊天内容与包含关键词的内容相关，保持选择，反之，当ω<ω_阈时，表示聊天内容与包含关键词的内容不相关，取消选择。

3.根据权利要求2所述的一种基于大数据的计算机网络安全监测方法，其特征在于：在步骤S4中，根据筛选结果，选择用户需要转发的内容信息，通过计算机屏幕向用户进行提示，并将分析结果进行加密存储，按照优先级由高到低进行排序展示，用户选择需要转发的聊天记录。

4.一种实现权利要求1-3任一项所述的一种基于大数据的计算机网络安全监测方法的基于大数据的计算机网络安全监测系统，其特征在于：所述网络安全监测系统包括：信息采集模块和数据分析模块；

5.根据权利要求4所述的一种基于大数据的计算机网络安全监测系统，其特征在于：所述网络安全监测系统还包括：数据库；所述数据库输入端与信息采集模块的输出端相连接，数据库输入端与数据分析模块的输出端相连接；

所述数据库用于对采集的数据和分析结果进行加密存储，包括数据加密单元和数据存储单元，所述数据加密单元通过ECC加密算法，对数据采集和数据分析的过程进行加密；所述数据存储单元通过散列存储方法，对采集的数据和分析结果进行存储，系统通过不断存储的数据，通过聚类算法进行机器学习。

6.根据权利要求5所述的一种基于大数据的计算机网络安全监测系统，其特征在于：所述网络安全监测系统还包括：转发显示模块；所述转发显示模块的输入端与数据分析模块的输出端相连接；

所述转发显示模块用于根据分析结果，通过时间节点选择聊天内容，对用户展示转发结果，包括内容选择单元和屏幕展示单元，所述内容选择单元用于根据分析的聊天内容优先级，将最终分析的聊天内容进行排序，用户根据优先级由高到低进行选择，所述屏幕展示单元用于将最终分析选择的转发聊天记录对用户进行展示。