CN116455861B - 一种基于大数据的计算机网络安全监测系统及方法 - Google Patents
一种基于大数据的计算机网络安全监测系统及方法 Download PDFInfo
- Publication number
- CN116455861B CN116455861B CN202310406571.4A CN202310406571A CN116455861B CN 116455861 B CN116455861 B CN 116455861B CN 202310406571 A CN202310406571 A CN 202310406571A CN 116455861 B CN116455861 B CN 116455861B
- Authority
- CN
- China
- Prior art keywords
- content
- user
- chat
- keyword
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 title claims abstract description 31
- 238000012216 screening Methods 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 18
- 238000007405 data analysis Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000009417 prefabrication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 241000213006 Angelica dahurica Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/214—Monitoring or handling of messages using selective forwarding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/216—Handling conversation history, e.g. grouping of messages in sessions or threads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的计算机网络安全监测系统及方法,属于网络安全监测领域,该网络安全监测系统包括信息采集模块、数据分析模块、数据库和转发显示模块,信息采集模块用于采集用户使用计算机时的数据信息,数据分析模块用于对采集的数据进行分析处理,转发显示模块用于根据分析结果,通过时间节点选择聊天内容,对用户展示转发结果。本发明通过分析用户输入的关键词,对用户的历史聊天内容进行分析,提取包含关键词的内容信息,通过知识图谱智能选取符合关键词的聊天内容进行转发,对不相关的内容进行筛除,用户根据时间节点选取想要转发的历史聊天内容,提高了用户转发信息的效率,提升了用户的使用体验。
Description
技术领域
本发明涉及网络安全监测领域,具体为一种基于大数据的计算机网络安全监测系统及方法。
背景技术
随着科技的不断发展,网络已成为我们现实生活中一个重要的组成部分,网络是由节点和连线构成,表示诸多对象及其相互联系,在计算机领域中,网络是信息传输、接收、共享的虚拟平台,通过它把各个点、面、体的信息联系到一起,从而实现这些资源的共享。网络是人类发展史来最重要的发明,提高了科技和人类社会的发展。采用计算机进行网络聊天成为人们日常的基本交流方式,促进了人们的学习、生活和人际交往等。
人们在使用计算机网络聊天时,常常需要将信息进行转发,目前,对于少量信息的转发,通常是通过用户逐条选择或者是选择一段聊天内容进行整个选取,但是对于大量信息需要转发时,选取的内容存在数量限制,难以一次完全转发,同时,当出现多个聊天主题时,存在许多不相关的内容夹杂在聊天记录中间,当用户不想转发这部分内容时,只能通过手动取消,十分消耗时间,给用户带来极差的使用体验。
由此看来,如何根据用户输入关键词智能选取历史聊天记录,如何对选取的历史聊天记录进行筛选是十分有必要的。因此,需要一种基于大数据的计算机网络安全监测系统及方法。
发明内容
本发明的目的在于提供一种基于大数据的计算机网络安全监测系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的计算机网络安全监测方法,包括下列步骤:
S1、采集用户输入的关键词信息,对用户通过网络发送的历史内容进行识别检测;
S2、根据识别采集的历史内容,提取历史发送内容中的关键词信息,与用户输入的关键词信息相匹配,提取包含关键词的内容;
S3、根据分析结果,对信息的相关性指数进行分析处理,对信息进行筛选;
S4、根据筛选结果,智能选择用户需要转发的内容信息,并对用户进行展示。
进一步的,在步骤S2中,包括下列步骤:
S201、根据采集的用户历史发送内容,形成关键词历史文本信息;
S202、根据用户输入的关键词历史文本信息,对候选关键词信息进行选择;
关键词历史文本信息形成集合M,其中的元素数量为M1,一个目标关键词的上下文单词形成子集合gα,所有上下文单词集合形成集合G={g1,g2,…,gr},其中,r表示为上下文单词子集合的数量,上下文选择范围由相关技术人员自行设定;
当输入的目标关键词为单个词c时,通过下列公式对关键词相关度f1进行计算:
其中,R表示为相关性函数,例如extended gloss overlap算法等,由相关技术人员进行设定;
当输入的目标关键词为多个词时,目标关键词形成集合C={c1,c2,…,cn},其中,n表示为目标关键词数量,上下文的词语形成集合G’,上下文选择范围由相关技术人员自行设定,通过下列公式对关键词相关度f2进行计算:
其中,ci表示为目标关键词集合中的一个目标关键词;
当关键词相关度最大时,表示该词的词义是目标关键词的正确词义,该词语成为疑似关键词;
S203、根据候选关键词,通过词语之间的相关度计算,对关键词进行筛选合并;
疑似关键词形成集合Q,Q1表示为集合内的元素数量,通过下列公式对疑似关键词cl的词语指数∈进行计算:
对所有的疑似关键词的词语指数进行计算并排序,词语指数越大,则表示该疑似关键词与疑似关键词集合中的其他词的关联程度越大;
S204、通过建立关键词提取模型,对关键词进行提取,提取包含该关键词的聊天内容。
通过下列公式对疑似关键词的关键词概率P进行计算:
其中,P1表示为该疑似关键词为关键词的概率,P2表示为该疑似关键词不是关键词的概率,P归表示为归一化处理参数,P1频表示为该疑似关键词是关键词时的词语出现频率,P1位表示为该疑似关键词是关键词时的第一次出现的平均位置,P1数表示为该疑似关键词是关键词时的组成词语单词数量,P1指表示为该疑似关键词是关键词时的词语指数,P2频表示为该疑似关键词不是关键词时的词语出现频率,P2位表示为该疑似关键词不是关键词时的第一次出现的平均位置,P2数表示为该疑似关键词不是关键词时的组成词语单词数量,P2指表示为该疑似关键词不是关键词时的词语指数;
对所有疑似关键词的关键词概率进行计算并排序,当概率最大时,表示为需要提取的关键词,实现对关键词的提取。
进一步的,在步骤S3中,包括下列步骤:
S301、根据提取的包含关键词的内容,通过构建聊天内容知识图谱,对聊天内容进行提取;
S302、根据提取的聊天内容,对信息的相关性指数进行分析,对聊天内容进行筛选;
S303、根据筛选结果,获取需要转发的聊天内容。
进一步的,在步骤S301中,包括下列步骤:
S301-1、根据提取的包含关键词的内容,得到该内容中的词语为cx,形成集合X={c1,c2,…,cs},其中,s表示为词语数量;设置词语的向量矩阵H为uH×d矩阵,其中,uH表示为总的词语数量,d表示为知识图谱的实体和关系的嵌入维度,嵌入是指将一个高维空间嵌入到一个维数低得多的连续向量空间中,嵌入维度是指向量中的元素数量;设置矩阵L,Li表示每个词语的出现次数,知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理,知识图谱的基本单位,是“头实体-关系-尾实体”构成的三元组,这也是知识图谱的核心;
S301-2、通过下列公式对词语cx的嵌入表示β进行计算:
β=(Li⊙Ij)H;
其中,I表示为权重矩阵,Ij表示为矩阵I中的元素,相关技术人员在数据库中预先设置每个词语的权重,根据提取内容中的词语自动构成与矩阵L结构一致的权重矩阵,⊙表逐个元素相乘;
S301-3、通过下列公式对评分函数f进行计算:
f=-τ||β1-β2||-(1-τ)||β头-v+β尾||;
其中,τ表示为权重参数,由相关技术人员自行设定,β1表示为头实体在文本信息的嵌入表示,β2表示为尾实体在文本信息的嵌入表示,β头表示为头实体在知识图谱的嵌入表示,β尾表示为尾实体在知识图谱的嵌入表示;v表示为知识图谱中的关系的向量;
S301-4、设置输入三元组集合为Z,正确三元组为z正,错误三元组为z错;通过下列公式对损失函数f损进行计算:
其中,γ表示为超参数,f正表示为正确三元组的评分函数,f正(z正)表示自变量为z正时的评分函数f正的值,f错表示为错误三元组的评分函数,f错(z错)表示自变量为z错时的评分函数f错的值;设定知识图谱中的头实体的向量为κ,知识图谱中的尾实体的向量为λ,当λ=κ+v时,说明满足尾实体向量为头实体向量与关系向量的和,表示为正确三元组;反之,当当λ≠κ+v时,说明不满足尾实体向量为头实体向量与关系向量的和,表示为错误三元组;
S301-5、根据分析结果,构建聊天内容知识图谱,提取出与关键词相关的聊天内容。
进一步的,在步骤S302中,包含下列步骤:
S302-1、设置时间间隔为t,该时间间隔由相关技术人员进行设置,将聊天内容按照时间间隔进行分区,并进行编号,通过下列公式对内容概率P进行计算:
其中,X表示为在设置时间间隔内的编号模拟值,μ表示为聊天内容的编号,θ表示为时间间隔内的平均关键词数量,平均关键词数量指在第一预制时间内的关键词数量,第一预制时间为相关技术人员设置的定值;由于在不重叠时间区间内的聊天内容是随机的,因此,用户聊天内容相互独立;
对每个时间间隔的聊天内容概率进行计算,将概率由高到低进行排序,实现对聊天内容的优先级排序;通过对聊天内容的优先级排序,便于快速找到与用户输入关键词匹配度最高的聊天内容,提高了系统的分析速度,便于用户快速确定需要的内容信息,无需用户对整个内容进行长时间筛选检查;
S302-2、根据提取的聊天内容,从优先级最高的时间间隔的聊天内容开始进行筛选;
设置包含关键词的聊天内容为信息集A,对信息集A中的元素进行排序,得到等级a;未包含关键词的聊天内容为信息集B,对信息集B中的元素进行排序,得到等级b,排序方式由相关技术人员进行设定;
S302-3、通过下列公式对内容相关性指数ω进行计算:
其中,δ表示为信息集中的数据个数;
S302-4、设置内容相关性指数阈值为ω阈,当ω≥ω阈时,表示聊天内容与包含关键词的内容相关,保持选择,反之,当ω<ω阈时,表示聊天内容与包含关键词的内容不相关,取消选择。
进一步的,在步骤S4中,根据筛选结果,选择用户需要转发的内容信息,通过计算机屏幕向用户进行提示,并将分析结果进行加密存储,按照优先级由高到低进行排序展示,用户选择需要转发的聊天记录,避免用户手动操作选择多项内容进行转发,避免了用户在大段需要转发的聊天内容中取消不需要转发的内容,避免用户在转发信息时将多余的信息转发给其他用户,保障了信息的安全性,便于用户快速找到与关键词相关的聊天内容,提高了系统的分析速度,节省了用户的时间,提高了用户的使用效率,增强了用户的使用体验。
一种基于大数据的计算机网络安全监测系统,所述网络安全监测系统包括:信息采集模块和数据分析模块;
所述信息采集模块的输出端与数据分析模块的输入端相连接;
所述信息采集模块用于采集用户使用计算机时的数据信息,包括历史内容采集单元和关键词采集单元,所述历史内容采集单元用于采集用户的历史聊天内容,所述关键词采集单元用于采集用户输入的关键词信息;
所述数据分析模块用于对采集的数据进行分析处理,包括关键词提取单元和内容筛选单元,所述关键词提取单元用于根据用户输入的关键词信息,对历史聊天内容中的关键词内容进行提取,所述内容筛选单元用于对内容相关性指数进行分析,筛选出与关键词相关的聊天内容。
进一步的,所述网络安全监测系统还包括:数据库;所述数据库输入端与信息采集模块的输出端相连接,数据库输入端与数据分析模块的输出端相连接;
所述数据库包括数据加密单元和数据存储单元,所述数据加密单元通过ECC加密算法,对数据采集和数据分析的过程进行加密,保证了用户的信息安全,避免信息泄露造成用户损失,ECC是椭圆加密算法,是一种公钥加密体制,其数学基础是利用椭圆曲线上的有理点构成Abel加法群上椭圆离散对数的计算困难性,主要优势是在某些情况下,它比其他的方法使用更小的密钥,比如RSA加密算法,提供相当的或更高等级的安全级别;所述数据存储单元通过散列存储方法,对采集的数据和分析结果进行存储,系统通过不断存储的数据,通过聚类算法进行机器学习,提高系统的分析准确性,散列存储又称hash存储,是一种力图将数据元素的存储位置与关键码之间建立确定对应关系的查找技术,散列是数组存储方式的一种发展,相比数组,散列的数据访问速度要高于数组,散列是能一种快速实现访问的存储方式;聚类分析又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常模式是一个度量的向量或者是多维空间中的一个点;聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,聚类算法中最典型的代表就是K-Means算法。
进一步的,所述网络安全监测系统还包括:转发显示模块;所述转发显示模块的输入端与数据分析模块的输出端相连接;
所述转发显示模块包括内容选择单元和屏幕展示单元,所述内容选择单元用于根据分析的聊天内容优先级,将最终分析的聊天内容进行排序,用户根据优先级由高到低进行选择,避免出现根据关键词分析出的聊天记录全部转发,将不必要发送的聊天内容转发出去,提高了系统分析选取的准确性,同时根据优先级进行聊天内容排序,便于用户快速找到需要转发的聊天内容,所述屏幕展示单元用于将最终分析选择的转发聊天记录对用户进行展示,便于用户能够确认转发内容,提高了用户的转发效率,提升了用户的使用体验。
与现有技术相比,本发明所达到的有益效果是:
本发明通过采集用户输入的关键词和历史聊天内容,根据关键词信息对用户的历史聊天内容进行分析处理,提取聊天内容中包含关键词的内容信息,通过知识图谱智能选取与关键词相关的聊天内容进行转发,便于准确查找与关键词相关联的聊天内容,并通过设置时间间隔进行划分和编号,对不同时间间隔的聊天内容进行优先级排序,从优先级高的聊天内容开始对不相关的内容进行筛除,用户根据按照优先级排序的聊天内容,选取想要转发的历史聊天内容,提高了用户转发信息的效率,大大提高了系统的分析速度,便于用户快速找到需要转发的聊天内容,同时避免出现将多余无关的历史聊天内容误转发的情况,提升了用户的使用体验。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的计算机网络安全监测系统的模块组成示意图;
图2是本发明一种基于大数据的计算机网络安全监测方法的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图2,本发明提供技术方案:一种基于大数据的计算机网络安全监测方法,包括下列步骤:
S1、采集用户输入的关键词信息,对用户通过网络发送的历史内容进行识别检测;
S2、根据识别采集的历史内容,提取历史发送内容中的关键词信息,与用户输入的关键词信息相匹配,提取包含关键词的内容;
在步骤S2中,包括下列步骤:
S201、根据采集的用户历史发送内容,形成关键词历史文本信息;
S202、根据用户输入的关键词历史文本信息,对候选关键词信息进行选择;
历史文本信息形成集合M,其中的元素数量为M1,一个目标关键词的上下文单词形成子集合gα,所有上下文单词集合形成集合G={g1,g2,…,gr},其中,r表示为上下文单词子集合的数量,上下文选择范围由相关技术人员自行设定;
当输入的目标关键词为单个词c时,通过下列公式对关键词相关度f1进行计算:
其中,R表示为相关性函数,例如extended gloss overlap算法等,由相关技术人员进行设定;
当输入的目标关键词为多个词时,目标关键词形成集合C={c1,c2,…,cn},其中,n表示为目标关键词数量,上下文的单词形成集合G’,上下文选择范围由相关技术人员自行设定,通过下列公式对关键词相关度f2进行计算:
其中,ci表示为目标关键词集合中的一个目标关键词;
当关键词相关度最大时,表示该词的词义是目标关键词的正确词义,该词语成为疑似关键词;
S203、根据候选关键词,通过词语之间的相关度计算,对关键词进行筛选合并;
疑似关键词形成集合Q,Q1表示为集合内的元素数量,通过下列公式对疑似关键词cl的词语指数∈进行计算:
对所有的疑似关键词的词语指数进行计算并排序,词语指数越大,则表示该疑似关键词与疑似关键词集合中的其他词的关联程度越大;
S204、通过建立关键词提取模型,对关键词进行提取,提取包含该关键词的聊天内容。
通过下列公式对疑似关键词的关键词概率P进行计算:
其中,P1表示为该疑似关键词为关键词的概率,P2表示为该疑似关键词不是关键词的概率,P归表示为归一化处理参数,P1频表示为该疑似关键词是关键词时的词语出现频率,P1位表示为该疑似关键词是关键词时的第一次出现的平均位置,P1数表示为该疑似关键词是关键词时的组成词语单词数量,P1指表示为该疑似关键词是关键词时的词语指数,P2频表示为该疑似关键词不是关键词时的词语出现频率,P2位表示为该疑似关键词不是关键词时的第一次出现的平均位置,P2数表示为该疑似关键词不是关键词时的组成词语单词数量,P2指表示为该疑似关键词不是关键词时的词语指数;
对所有疑似关键词的关键词概率进行计算并排序,当概率最大时,表示为需要提取的关键词,实现对关键词的提取。
S3、根据分析结果,对信息的相关性指数进行分析处理,对信息进行筛选;
在步骤S3中,包括下列步骤:
S301、根据提取的包含关键词的内容,通过构建聊天内容知识图谱,对聊天内容进行提取;
在步骤S301中,包括下列步骤:
S301-1、根据提取的包含关键词的内容,得到该内容中的词语为cx,形成集合X={c1,c2,…,cs},x∈[1,s],其中,s表示为词语数量;设置词语的向量矩阵H为uH×d矩阵,其中,uH表示为总的词语数量,d表示为知识图谱的实体和关系的嵌入维度,嵌入是指将一个高维空间嵌入到一个维数低得多的连续向量空间中,嵌入维度是指向量中的元素数量;设置矩阵L,Li表示每个词语的出现次数,知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理,知识图谱的基本单位,是“头实体-关系-尾实体”构成的三元组,这也是知识图谱的核心;
S301-2、通过下列公式对词语cx的嵌入表示β进行计算:
β=(Li⊙Ij)H;
其中,I表示为权重矩阵,Ij表示为矩阵I中的元素,相关技术人员在数据库中预先设置每个词语的权重,根据提取内容中的词语自动构成与矩阵L结构一致的权重矩阵,⊙表逐个元素相乘;
S301-3、通过下列公式对评分函数f进行计算:
f=-τ||β1-β2||-(1-τ)||β头-v+β尾||;
其中,τ表示为权重参数,由相关技术人员自行设定,β1表示为头实体在文本信息的嵌入表示,β2表示为尾实体在文本信息的嵌入表示,β头表示为头实体在知识图谱的嵌入表示,β尾表示为尾实体在知识图谱的嵌入表示;v表示为知识图谱中的关系的向量;
S301-4、设置输入三元组集合为Z,正确三元组为z正,错误三元组为z错;通过下列公式对损失函数f损进行计算:
其中,γ表示为超参数,f正表示为正确三元组的评分函数,f正(z正)表示自变量为z正时的评分函数f正的值,f错表示为错误三元组的评分函数,f错(z错)表示自变量为z错时的评分函数f错的值;设定知识图谱中的头实体的向量为κ,知识图谱中的尾实体的向量为λ,当λ=κ+v时,说明满足尾实体向量为头实体向量与关系向量的和,表示为正确三元组;反之,当当λ≠κ+v时,说明不满足尾实体向量为头实体向量与关系向量的和,表示为错误三元组;
S301-5、根据分析结果,构建聊天内容知识图谱,提取出与关键词相关的聊天内容。
S302、根据提取的聊天内容,对信息的相关性指数进行分析,对聊天内容进行筛选;
在步骤S302中,包含下列步骤:
S302-1、设置时间间隔为t,该时间间隔由相关技术人员进行设置,例如设置时间间隔为一天,将聊天内容按照时间间隔进行分区,并进行编号,通过下列公式对内容概率P进行计算:
其中,X表示为在设置时间间隔内的编号模拟值,μ表示为聊天内容的编号,θ表示为时间间隔内的平均关键词数量,平均关键词数量指在第一预制时间内的关键词数量,第一预制时间为相关技术人员设置的定值;由于在不重叠时间区间内的聊天内容是随机的,因此,用户聊天内容相互独立;
对每个时间间隔的聊天内容概率进行计算,将概率由高到低进行排序,实现对聊天内容的优先级排序;通过对聊天内容的优先级排序,便于快速找到与用户输入关键词匹配度最高的聊天内容,提高了系统的分析速度,便于用户快速确定需要的内容信息,无需用户对整个内容进行长时间筛选检查;
S302-2、根据提取的聊天内容,从优先级最高的时间间隔的聊天内容开始进行筛选;
设置包含关键词的聊天内容为信息集A,对信息集A中的元素进行排序,得到等级a;未包含关键词的聊天内容为信息集B,对信息集B中的元素进行排序,得到等级b,排序方式由相关技术人员进行设定;
S302-3、通过下列公式对内容相关性指数ω进行计算:
其中,δ表示为信息集中的数据个数;
S302-4、设置内容相关性指数阈值为ω阈,当ω≥ω阈时,表示聊天内容与包含关键词的内容相关,保持选择,反之,当ω<ω阈时,表示聊天内容与包含关键词的内容不相关,取消选择。
S303、根据筛选结果,获取需要转发的聊天内容。
S4、根据筛选结果,智能选择用户需要转发的内容信息,并对用户进行展示。
在步骤S4中,根据筛选结果,选择用户需要转发的内容信息,通过计算机屏幕向用户进行提示,并将分析结果进行加密存储,按照优先级由高到低进行排序展示,用户选择需要转发的聊天记录,避免用户手动操作选择多项内容进行转发,避免了用户在大段需要转发的聊天内容中取消不需要转发的内容,避免用户在转发信息时将多余的信息转发给其他用户,保障了信息的安全性,便于用户快速找到与关键词相关的聊天内容,提高了系统的分析速度,节省了用户的时间,提高了用户的使用效率,增强了用户的使用体验。
一种基于大数据的计算机网络安全监测系统,所述网络安全监测系统包括:信息采集模块和数据分析模块;
所述信息采集模块的输出端与数据分析模块的输入端相连接;
所述信息采集模块用于采集用户使用计算机时的数据信息,包括历史内容采集单元和关键词采集单元,所述历史内容采集单元用于采集用户的历史聊天内容,所述关键词采集单元用于采集用户输入的关键词信息;
所述数据分析模块用于对采集的数据进行分析处理,包括关键词提取单元和内容筛选单元,所述关键词提取单元用于根据用户输入的关键词信息,对历史聊天内容中的关键词内容进行提取,所述内容筛选单元用于对内容相关性指数进行分析,筛选出与关键词相关的聊天内容。
所述网络安全监测系统还包括:数据库;所述数据库输入端与信息采集模块的输出端相连接,数据库输入端与数据分析模块的输出端相连接;
所述数据库包括数据加密单元和数据存储单元,所述数据加密单元通过ECC加密算法,对数据采集和数据分析的过程进行加密,保证了用户的信息安全,避免信息泄露造成用户损失,ECC是椭圆加密算法,是一种公钥加密体制,其数学基础是利用椭圆曲线上的有理点构成Abel加法群上椭圆离散对数的计算困难性,主要优势是在某些情况下,它比其他的方法使用更小的密钥,比如RSA加密算法,提供相当的或更高等级的安全级别;所述数据存储单元通过散列存储方法,对采集的数据和分析结果进行存储,系统通过不断存储的数据,通过聚类算法进行机器学习,提高系统的分析准确性,散列存储又称hash存储,是一种力图将数据元素的存储位置与关键码之间建立确定对应关系的查找技术,散列是数组存储方式的一种发展,相比数组,散列的数据访问速度要高于数组,散列是能一种快速实现访问的存储方式;聚类分析又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常模式是一个度量的向量或者是多维空间中的一个点;聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,聚类算法中最典型的代表就是K-Means算法。
所述网络安全监测系统还包括:转发显示模块;所述转发显示模块的输入端与数据分析模块的输出端相连接;
所述转发显示模块包括内容选择单元和屏幕展示单元,所述内容选择单元用于根据分析的聊天内容优先级,将最终分析的聊天内容进行排序,用户根据优先级由高到低进行选择,避免出现根据关键词分析出的聊天记录全部转发,将不必要发送的聊天内容转发出去,提高了系统分析选取的准确性,同时根据优先级进行聊天内容排序,便于用户快速找到需要转发的聊天内容,所述屏幕展示单元用于将最终分析选择的转发聊天记录对用户进行展示,便于用户能够确认转发内容,提高了用户的转发效率,提升了用户的使用体验。
实施例1:
若向量矩阵权重矩阵/>矩阵/>则嵌入表示
实施例2:
若一用户通过关键词,提取了历史聊天内容,内容相关性指数阈值ω阈=0.8,若条对话框的聊天内容的内容相关性指数为表示聊天内容与包含关键词的内容相关,保持选择;若某条对话框的聊天内容的内容相关性指数为/> 此时表示聊天内容与包含关键词的内容不相关,取消选择,根据筛选结果,选择用户需要转发的内容信息,通过计算机屏幕向用户进行提示,并将分析结果进行加密存储,用户通过调节聊天内容时间点,选择需要转发的聊天记录。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于大数据的计算机网络安全监测方法,其特征在于:包括下列步骤:
S1、采集用户输入的关键词信息,对用户通过网络发送的历史内容进行识别检测;
S2、根据识别采集的历史内容,提取历史发送内容中的关键词信息,与用户输入的关键词信息相匹配,提取包含关键词的内容;
S3、根据分析结果,对信息的相关性指数进行分析处理,对信息进行筛选;
S4、根据筛选结果,智能选择用户需要转发的内容信息,并对用户进行展示;
在步骤S2中,包括下列步骤:
S201、根据采集的用户历史发送内容,形成关键词历史文本信息;
S202、根据用户输入的关键词历史文本信息,对候选关键词信息进行选择;
S203、根据候选关键词,通过词语之间的相关度计算,对关键词进行筛选合并;
S204、通过建立关键词提取模型,对关键词进行提取,提取包含该关键词的聊天内容;
在步骤S3中,包括下列步骤:
S301、根据提取的包含关键词的内容,通过构建聊天内容知识图谱,对聊天内容进行提取;
S302、根据提取的聊天内容,对信息的相关性指数进行分析,对聊天内容进行筛选;
S303、根据筛选结果,获取需要转发的聊天内容;
在步骤S301中,包括下列步骤:
S301-1、根据提取的包含关键词的内容,得到该内容中的词语为cx,形成集合X={c1,c2,…,cs},其中,s表示为词语数量;设置词语的向量矩阵H为uH×d矩阵,其中,uH表示为总的词语数量,d表示为知识图谱的实体和关系的嵌入维度;设置矩阵L,Li表示为实体中每个词语的出现次数;
S301-2、通过下列公式对词语cx的嵌入表示β进行计算:
β=(Li⊙Ij)H;
其中,I表示为权重矩阵,Ij表示为矩阵I中的元素,⊙表逐个元素相乘;
S301-3、通过下列公式对评分函数f进行计算:
f=-τ||β1-β2||-(1-τ)||β头-v+β尾||;
其中,τ表示为权重参数,β1表示为头实体在文本信息的嵌入表示,β2表示为尾实体在文本信息的嵌入表示,β头表示为头实体在知识图谱的嵌入表示,β尾表示为尾实体在知识图谱的嵌入表示;v表示为知识图谱中的关系的向量;
S301-4、设置输入三元组集合为Z,正确三元组为z正,错误三元组为z错;
通过下列公式对损失函数f损进行计算:
其中,γ表示为超参数,f正表示为正确三元组的评分函数,f正(z正)表示自变量为z正时的评分函数f正的值,f错表示为错误三元组的评分函数,f错(z错)表示自变量为z错时的评分函数f错的值;
S301-5、根据分析结果,构建聊天内容知识图谱,提取出与关键词相关的聊天内容。
2.根据权利要求1所述的一种基于大数据的计算机网络安全监测方法,其特征在于:在步骤S302中,包含下列步骤:
S302-1、设置时间间隔为t,将聊天内容按照时间间隔进行分区,并进行编号,通过下列公式对内容概率P进行计算:
其中,X表示为在设置时间间隔内的编号模拟值,μ表示为聊天内容的编号,θ表示为时间间隔内的平均关键词数量;
对每个时间间隔的聊天内容概率进行计算,将概率由高到低进行排序,实现对聊天内容的优先级排序;
S302-2、根据提取的聊天内容,从优先级最高的时间间隔的聊天内容开始进行筛选;
对信息集A中的元素进行排序,得到等级a;未包含关键词的聊天内容为信息集B,对信息集B中的元素进行排序,得到等级b;
S302-3、通过下列公式对内容相关性指数ω进行计算:
其中,δ表示为信息集中的数据个数;
S302-4、设置内容相关性指数阈值为ω阈,当ω≥ω阈时,表示聊天内容与包含关键词的内容相关,保持选择,反之,当ω<ω阈时,表示聊天内容与包含关键词的内容不相关,取消选择。
3.根据权利要求2所述的一种基于大数据的计算机网络安全监测方法,其特征在于:在步骤S4中,根据筛选结果,选择用户需要转发的内容信息,通过计算机屏幕向用户进行提示,并将分析结果进行加密存储,按照优先级由高到低进行排序展示,用户选择需要转发的聊天记录。
4.一种实现权利要求1-3任一项所述的一种基于大数据的计算机网络安全监测方法的基于大数据的计算机网络安全监测系统,其特征在于:所述网络安全监测系统包括:信息采集模块和数据分析模块;
所述信息采集模块的输出端与数据分析模块的输入端相连接;
所述信息采集模块用于采集用户使用计算机时的数据信息,包括历史内容采集单元和关键词采集单元,所述历史内容采集单元用于采集用户的历史聊天内容,所述关键词采集单元用于采集用户输入的关键词信息;
所述数据分析模块用于对采集的数据进行分析处理,包括关键词提取单元和内容筛选单元,所述关键词提取单元用于根据用户输入的关键词信息,对历史聊天内容中的关键词内容进行提取,所述内容筛选单元用于对内容相关性指数进行分析,筛选出与关键词相关的聊天内容。
5.根据权利要求4所述的一种基于大数据的计算机网络安全监测系统,其特征在于:所述网络安全监测系统还包括:数据库;所述数据库输入端与信息采集模块的输出端相连接,数据库输入端与数据分析模块的输出端相连接;
所述数据库用于对采集的数据和分析结果进行加密存储,包括数据加密单元和数据存储单元,所述数据加密单元通过ECC加密算法,对数据采集和数据分析的过程进行加密;所述数据存储单元通过散列存储方法,对采集的数据和分析结果进行存储,系统通过不断存储的数据,通过聚类算法进行机器学习。
6.根据权利要求5所述的一种基于大数据的计算机网络安全监测系统,其特征在于:所述网络安全监测系统还包括:转发显示模块;所述转发显示模块的输入端与数据分析模块的输出端相连接;
所述转发显示模块用于根据分析结果,通过时间节点选择聊天内容,对用户展示转发结果,包括内容选择单元和屏幕展示单元,所述内容选择单元用于根据分析的聊天内容优先级,将最终分析的聊天内容进行排序,用户根据优先级由高到低进行选择,所述屏幕展示单元用于将最终分析选择的转发聊天记录对用户进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406571.4A CN116455861B (zh) | 2023-04-17 | 2023-04-17 | 一种基于大数据的计算机网络安全监测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406571.4A CN116455861B (zh) | 2023-04-17 | 2023-04-17 | 一种基于大数据的计算机网络安全监测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116455861A CN116455861A (zh) | 2023-07-18 |
CN116455861B true CN116455861B (zh) | 2023-11-24 |
Family
ID=87135279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406571.4A Active CN116455861B (zh) | 2023-04-17 | 2023-04-17 | 一种基于大数据的计算机网络安全监测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116455861B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117061551B (zh) * | 2023-08-15 | 2024-02-02 | 珠海市超网智能科技有限公司 | 一种基于云计算的健康数据监测系统及方法 |
CN117319338A (zh) * | 2023-09-07 | 2023-12-29 | 哈尔滨时代宏图科技开发有限公司 | 一种基于区块链的数据信息智能管理系统及方法 |
CN117473074A (zh) * | 2023-11-01 | 2024-01-30 | 中国通信建设集团有限公司数智科创分公司 | 一种基于人工智能的司法案例智能信息匹配系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027186A (ja) * | 2006-07-21 | 2008-02-07 | Seiko Epson Corp | 情報検索装置および情報検索方法 |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索系统及方法 |
CN105574030A (zh) * | 2014-10-16 | 2016-05-11 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN109885810A (zh) * | 2019-01-17 | 2019-06-14 | 平安城市建设科技(深圳)有限公司 | 基于语义解析的人机问答方法、装置、设备和存储介质 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
CN114722279A (zh) * | 2022-03-29 | 2022-07-08 | 北京明略昭辉科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN114996207A (zh) * | 2022-05-09 | 2022-09-02 | 中通服咨询设计研究院有限公司 | 一种基于5g云计算的大数据分析方法及系统 |
CN115033797A (zh) * | 2022-06-30 | 2022-09-09 | 拉扎斯网络科技(上海)有限公司 | 内容搜索方法及装置、存储介质、计算机设备 |
CN115544348A (zh) * | 2022-09-09 | 2022-12-30 | 李鑫 | 一种基于互联网大数据的海量信息智能搜索系统 |
CN115617846A (zh) * | 2022-10-19 | 2023-01-17 | 刘跃冰 | 基于大数据和区块链的信息筛选方法及系统 |
CN115795136A (zh) * | 2022-12-26 | 2023-03-14 | 拉扎斯网络科技(上海)有限公司 | 一种数据处理方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262531B2 (en) * | 2010-07-23 | 2016-02-16 | Applied Minds, Llc | System and method for chat message prioritization and highlighting |
-
2023
- 2023-04-17 CN CN202310406571.4A patent/CN116455861B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027186A (ja) * | 2006-07-21 | 2008-02-07 | Seiko Epson Corp | 情報検索装置および情報検索方法 |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索系统及方法 |
CN105574030A (zh) * | 2014-10-16 | 2016-05-11 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
CN109885810A (zh) * | 2019-01-17 | 2019-06-14 | 平安城市建设科技(深圳)有限公司 | 基于语义解析的人机问答方法、装置、设备和存储介质 |
CN114722279A (zh) * | 2022-03-29 | 2022-07-08 | 北京明略昭辉科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN114996207A (zh) * | 2022-05-09 | 2022-09-02 | 中通服咨询设计研究院有限公司 | 一种基于5g云计算的大数据分析方法及系统 |
CN115033797A (zh) * | 2022-06-30 | 2022-09-09 | 拉扎斯网络科技(上海)有限公司 | 内容搜索方法及装置、存储介质、计算机设备 |
CN115544348A (zh) * | 2022-09-09 | 2022-12-30 | 李鑫 | 一种基于互联网大数据的海量信息智能搜索系统 |
CN115617846A (zh) * | 2022-10-19 | 2023-01-17 | 刘跃冰 | 基于大数据和区块链的信息筛选方法及系统 |
CN115795136A (zh) * | 2022-12-26 | 2023-03-14 | 拉扎斯网络科技(上海)有限公司 | 一种数据处理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
基于历史点击数据的集合选择方法;刘颖;陈岭;陈根才;赵江奇;王敬昌;;浙江大学学报(工学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116455861A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116455861B (zh) | 一种基于大数据的计算机网络安全监测系统及方法 | |
CN101119326B (zh) | 一种即时通信会话记录的管理方法及装置 | |
US5867799A (en) | Information system and method for filtering a massive flow of information entities to meet user information classification needs | |
US20040249808A1 (en) | Query expansion using query logs | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
EP2045737A2 (en) | Selecting tags for a document by analysing paragraphs of the document | |
EP2045740A1 (en) | Recommending terms to specify ontology space | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
EP2045735A2 (en) | Refining a search space inresponse to user Input | |
KR102069621B1 (ko) | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 | |
CA2720842A1 (en) | System and method for value significance evaluation of ontological subjects of network and the applications thereof | |
US20030212663A1 (en) | Neural network feedback for enhancing text search | |
Oktarina et al. | Comparison of k-means clustering method and k-medoids on twitter data | |
KR20130108503A (ko) | 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 | |
CN113297457B (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN110866102A (zh) | 检索处理方法 | |
CN114048318A (zh) | 基于密度半径的聚类方法、系统、设备及存储介质 | |
Manne et al. | Text categorization with K-nearest neighbor approach | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
Li et al. | A subspace decision cluster classifier for text classification | |
CN117196556A (zh) | 一种基于大数据的多平台招聘信息管理系统及方法 | |
Karasalo et al. | Developing horizon scanning methods for the discovery of scientific trends | |
CN114943285A (zh) | 互联网新闻内容数据智能审核系统 | |
Nuray-Turan et al. | Self-tuning in graph-based reference disambiguation | |
CN108197335B (zh) | 一种基于用户行为个性化查询推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231030 Address after: No. 6 Banzhong Road, Jin'an District, Fuzhou City, Fujian Province, 350000. Taihe City Plaza (Phase I), Building 1 #, Building 1a #, Floor 6, Office 8, Office 8 Applicant after: Fujian Shuzhi Minzheng Technology Co.,Ltd. Address before: Room 1-915, Building D1, Xiangxi Zuoan Community, No. 70 Heping Avenue (north of Heping Avenue), Yunlong District, Xuzhou, Jiangsu Province, 221000 Applicant before: Jiangsu xinyixiang Intelligent Engineering Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |