CN113627179A - 一种基于大数据的威胁情报预警文本分析方法及系统 - Google Patents

一种基于大数据的威胁情报预警文本分析方法及系统 Download PDF

Info

Publication number
CN113627179A
CN113627179A CN202111189527.XA CN202111189527A CN113627179A CN 113627179 A CN113627179 A CN 113627179A CN 202111189527 A CN202111189527 A CN 202111189527A CN 113627179 A CN113627179 A CN 113627179A
Authority
CN
China
Prior art keywords
tokenset
participle
sequence
participles
dtp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111189527.XA
Other languages
English (en)
Other versions
CN113627179B (zh
Inventor
张鹏
伍军
周晓健
朱志华
谢礼炮
黎婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Mechanical and Electrical College
Original Assignee
Guangdong Mechanical and Electrical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Mechanical and Electrical College filed Critical Guangdong Mechanical and Electrical College
Priority to CN202111189527.XA priority Critical patent/CN113627179B/zh
Publication of CN113627179A publication Critical patent/CN113627179A/zh
Application granted granted Critical
Publication of CN113627179B publication Critical patent/CN113627179B/zh
Priority to PCT/CN2022/124189 priority patent/WO2023061304A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统,通过网络爬虫技术获取网络数据文本进行分词得到分词集合,并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号,根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将预警文本发送到客户端的屏幕进行显示,实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。

Description

一种基于大数据的威胁情报预警文本分析方法及系统
技术领域
本发明属于大数据分析、文字处理、网络安全威胁预警技术领域,具体涉及一种基于大数据的威胁情报预警文本分析方法及系统。
背景技术
随着现代社会的信息化程度加深,大数据技术的使用日益普及,在网络社交媒体的信息存储与传播中,文本数据的生产量与需求量也在急剧攀升。系统安全数据的采集和存储,以及信息安全威胁的发现排查,都相应带来了比以往更高的安全防护技术和管理规范化技术要求。在信息文本的存储总量和产生速度都急剧增长的社会现状下,超量的网页数据的分析和管理对技术系统产生了新要求。在公开号CN107196910A的专利提供的基于大数据分析的威胁预警监测系统、方法及部署架构中,尽管可用于多种业务场景下的网络安全威胁态势感知和深度分析,但仍不能有效分析网络数据的语义风险。
发明内容
本发明的目的在于提出一种基于大数据的威胁情报预警文本分析方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
文本数据的生产量与需求量的急剧攀升,对系统安全数据的采集和存储、以及信息安全威胁的发现排查,带来了比以往更高的安全防护技术和管理规范化技术要求,需要有效分析网络数据的语义风险。
本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统,通过网络爬虫技术获取网络数据文本进行分词得到分词集合,并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号,根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将预警文本发送到客户端的屏幕进行显示。
为了实现上述目的,根据本发明的一方面,提供一种基于大数据的威胁情报预警文本分析方法,所述方法包括以下步骤:
S100,通过网络爬虫技术获取网络数据文本;
S200,对网络数据文本进行分词得到分词集合;
S300,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号;
S400,根据各分词的分词数值信号计算各分词之间的序列联系度;
S500,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本,并将预警文本发送到客户端的屏幕进行显示。
进一步地,在S100中,通过网络爬虫技术获取网络数据文本的方法为:通过网络爬虫技术获取互联网的社交媒体上的网页文本,将获取到的网页文本作为字符串数据进行保存,将保存得到的文本文件作为网络数据文本,记所有的网络数据文本组成的集合为集合Txtset,以变量t表示集合Txtset中网络数据文本的序号,集合Txtset中序号为t的网络数据文本记为Txtset(t)。
进一步地,在S200中,对网络数据文本进行分词得到分词集合的方法为:使用中文分词算法将所有的网络数据文本中保存的字符串数据进行分词,得到多个字符串的片段记作多个分词,并去除重复出现的分词,将多个分词组成的集合记作分词集合,所述分词集合为具有互异性与有序性的集合。
进一步地,在S300中,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号的方法为:对分词集合中的各个分词进行数值化处理的具体方法为,记分词集合为集合Tokenset,令变量n表示集合Tokenset中元素的数量,变量i表示集合Tokenset中元素的序号,i∈[1,n],变量Tokenset(i)表示集合Tokenset中序号为i的元素,将分词Tokenset(i)的字符串中的每个字符在国家标准代码中的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i),变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符,所述二进制字符Tokenset(i)为由字符“0”和字符“1”组成的字符串,以变量v表示所述二进制字符Tokenset(i)的字符串长度,进而通过字符串切分将Tokenset(i)分成由v个为0或1的数值组成v维数组,即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i),将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset,tv(i)在集合tvset中的序号为i,记数组tv(i)中的元素的序号为t,t∈[1,v],数组tv(i)中序号为t的元素为tv(i)_t,记函数Dtp()为对数组进行处理的函数,Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行处理,π为圆周率,cos()为计算余弦函数,Dtp(tv(i))的计算过程为:
Figure 480592DEST_PATH_IMAGE001
Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组,Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n)),将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号,分词数值的数组长度为v,分词数值信号中的元素的序号为t,记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset,数组Dtp(i)在集合Dtpset中的序号为i。
进一步地,在S400中,根据各分词的分词数值信号计算各分词之间的序列联系度的方法为:将网络数据文本Txtset(t)中保存的字符串数据进行分词得到的分词的集合作为Tokenset_t,记集合Txtset中各个网络数据文本Txtset(t) 分别进行分词得到的各个Tokenset_t的集合为Tokensets,集合Tokenset_t中的元素同时存在于集合Tokenset中,令变量s表示集合Tokenset_t中元素的序号,Tokenset_t中序号为s的元素记作Tokenset_t(s),变量k表示集合Tokenset_t中元素的总数,s∈[1,k],将通过Tokenset_t(s)的序号s得到分词Tokenset_t(s)在集合Dtpset中的分词数值信号记为Dtp(s);
设置集合Seqset,集合Seqset中的元素数量与集合Txtset中的元素数量相同,集合Seqset中的元素的序号为t,Seqset中序号为t的元素记作Seqset(t), 元素Seqset(t)为有序集合;
计算各分词之间的序列联系度的程序为:
S401,开始程序;获取Tokenset_t;获取集合Seqset中序号为t的元素Seqset(t),令Seqset(t)中的元素清空;
S402,令s的数值为1;设置变量s2;设置变量u,令变量u的数值为0;
S403,通过s获取Dtp(s);
S4041,令s2的数值为s的数值;
S4042,令s2的数值增加1;
S4043,通过s2获取Dtp(s2);
S4044,定义计算两个分词的分词数值信号之间的关联度的函数为Rel(),则Rel(Dtp (s),Dtp(s2))为计算Dtp(s)、Dtp(s2)之间的关联度记作Rel(s,s2),记数组Dtp(s)中序号为t的元素为Dtp(s)(t)、数组Dtp(s2)中序号为t的元素为Dtp(s2)(t),Rel(s,s2)的计算公式如下:
Figure 487862DEST_PATH_IMAGE002
S4045,计算Tokenset_t(s)与集合Tokenset_t中的其他分词的关联度,设置变量s3表示集合Tokenset_t中第s2个元素到第k个元素的序号,记Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度为Rel(s,s2,k),计算公式为:
Figure 685625DEST_PATH_IMAGE003
所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度,s3为累加变量,s3∈[s2,k];
S4046,进行对阈值的计算,函数exp()表示以自然数e为底数的指数函数,所述阈值的计算公式为:
Figure 731817DEST_PATH_IMAGE004
所得数值即为所述阈值的数值,并将u的数值设置为所述阈值的数值;
根据所述Rel(s,s2,k)和所述u进行对序列联系度的计算,记Tokenset_t(s)与集合Tokenset_t中的其他分词的序列联系度为Seq(Tokenset_t(s)),序列联系度Seq(Tokenset_t(s))的计算公式为:
Figure 495373DEST_PATH_IMAGE005
将所得序列联系度Seq(Tokenset_t(s))记作Seq_t_s并加入到集合Seqset(t)中作为Seqset(t)序号为s的元素;
S4047,将u的数值设置为Seq_t_s的数值;转到S4051;
S4051,判断s的数值是否大于或等于k,若是则转到S4052,若否则将s的数值增加1;转到S403;
S4052,将集合Seqset(t)作为集合Seqset中序号为t的元素并进行保存;结束程序;
集合Seqset中序号为t的元素Seqset(t)与集合Txtset中序号为t的网络数据文本Txtset(t) 进行分词得到的分词的集合Tokenset_t相互对应,所述集合Seqset(t)中的元素即为该元素对应序号的分词的序列联系度。
进一步地,在S500中,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为:对一个分词的序列联系度进行判断是否存在异常的方法为,在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s),若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值,则该网络数据文本Txtset(t)存在异常,记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t),Tokenset_t`∈Cu(Tokenset_t),记t`为集合Cu(Tokenset_t)中元素的序号,Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素,Tokenset_t`(s)∈Tokenset_t`,函数len()为获取集合元素数量的函数,Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度,判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下:
Figure 735862DEST_PATH_IMAGE006
若满足上述公式,则表示分词Tokenset_t(s) 在Tokenset_t中存在异常,将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印,即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本,并将所述预警文本发送到客户端的屏幕进行显示。
本发明还提供了一种基于大数据的威胁情报预警文本分析系统,所述一种基于大数据的威胁情报预警文本分析系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于大数据的威胁情报预警文本分析方法中的步骤,所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:
网络爬虫单元,用于通过网络爬虫技术获取网络数据文本;
分词单元,用于对网络数据文本进行分词得到分词集合;
数值化处理单元,用于对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号;
序列联系度计算单元,用于根据各分词的分词数值信号计算各分词之间的序列联系度;
威胁情报筛选单元,用于计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将得到的威胁情报分词组合成预警文本发送到客户端的屏幕进行显示。
本发明的有益效果为:本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统,通过网络爬虫技术获取网络数据文本进行分词得到分词集合,并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号,根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将预警文本发送到客户端的屏幕进行显示,实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种基于大数据的威胁情报预警文本分析方法的流程图;
图2所示为一种基于大数据的威胁情报预警文本分析系统的系统结构图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
如图1所示为根据本发明的一种基于大数据的威胁情报预警文本分析方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种基于大数据的威胁情报预警文本分析方法及系统。
本发明提出一种基于大数据的威胁情报预警文本分析方法,所述方法具体包括以下步骤:
S100,通过网络爬虫技术获取网络数据文本;
S200,对网络数据文本进行分词得到分词集合;
S300,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号;
S400,根据各分词的分词数值信号计算各分词之间的序列联系度;
S500,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本,并将预警文本发送到客户端的屏幕进行显示。
进一步地,在S100中,通过网络爬虫技术获取网络数据文本的方法为:通过网络爬虫技术获取互联网的社交媒体上的网页文本,将获取到的网页文本作为字符串数据进行保存,将保存得到的文本文件作为网络数据文本,记所有的网络数据文本组成的集合为集合Txtset,以变量t表示集合Txtset中网络数据文本的序号,集合Txtset中序号为t的网络数据文本记为Txtset(t),其中,网络爬虫技术包括聚焦网络爬虫、增量式网络爬虫、Deep Web爬虫中任意一种。
进一步地,在S200中,对网络数据文本进行分词得到分词集合的方法为:使用中文分词算法(包括逆向最大匹配算法RMM、双向最大匹配法或者N-gram模型中任意一种)将所有的网络数据文本中保存的字符串数据进行分词,得到多个字符串的片段记作多个分词,并去除重复出现的分词,将多个分词组成的集合记作分词集合,所述分词集合为具有互异性与有序性的集合。
进一步地,在S300中,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号的方法为:对分词集合中的各个分词进行数值化处理的具体方法为,记分词集合为集合Tokenset,令变量n表示集合Tokenset中元素的数量,变量i表示集合Tokenset中元素的序号,i∈[1,n],变量Tokenset(i)表示集合Tokenset中序号为i的元素,将分词Tokenset(i)的字符串中的每个字符在国家标准代码中的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i),
例如,“这是一只猫”,可被分词为数组[“这是”,“一只”,“猫”],字符串“一只”是一个分词,当Tokenset(i)指代“一只”时,Tokenset(i)的字符串中的2个字符即为“一”和“只”,分别取“一”的字符和“只”的字符在国家标准代码中的十六进制数换算得到的二进制数,“一”的十六进制为D2BB,D2BB转成字符串“D2BB”,D2BB的二进制为1101001010111011,
“只”的十六进制为D6BB,D6BB转成字符串“D6BB”,D6BB的二进制为1101011010111011,
1101001010111011+1101011010111011=11010100101110110,11010100101110110转成字符串“11010100101110110”,“11010100101110110”即为bistr(i),将bistr(i)中的每一位分开为“1、1、0、1、0、1、0、0、1、0、1、1、1、0、1、1、0”再以这些中的为0或1的数值组成数组[1、1、0、1、0、1、0、0、1、0、1、1、1、0、1、1、0],其中的顿号“、”表示分隔符,
变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符,所述二进制字符bistr(i)为由字符“0”和字符“1”组成的字符串,以变量v表示所述二进制字符bistr(i)的字符串长度,进而通过字符串切分将bistr(i)分成由v个为0或1的数值组成v维数组,即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i),将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset,tv(i)在集合tvset中的序号为i,记数组tv(i)中的元素的序号为t,t∈[1,v],数组tv(i)中序号为t的元素为tv(i)_t,记函数Dtp()为对数组进行分词数值化处理的函数,Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行分词数值化处理,π为圆周率,cos()为计算余弦函数,Dtp(tv(i))的计算过程为:
Figure 889762DEST_PATH_IMAGE001
Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组,Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n)),将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号,由于分词数值与分词一一对应,则分词与分词数组的数量和序号保持一致,所以,分词数值的数组长度同样为v,分词数值信号中的元素的序号同样为t,记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset,数组Dtp(i)在集合Dtpset中的序号为i。
进一步地,在S400中,根据各分词的分词数值信号计算各分词之间的序列联系度的方法为:将网络数据文本Txtset(t)中保存的字符串数据进行分词得到的分词的集合作为Tokenset_t,记集合Txtset中各个网络数据文本Txtset(t) 分别进行分词得到的各个Tokenset_t的集合为Tokensets,集合Tokenset_t中的元素同时存在于集合Tokenset中,令变量s表示集合Tokenset_t中元素的序号,Tokenset_t中序号为s的元素记作Tokenset_t(s),变量k表示集合Tokenset_t中元素的总数,s∈[1,k],将通过Tokenset_t(s)的序号s得到分词Tokenset_t(s)在集合Dtpset中的分词数值信号记为Dtp(s);
设置集合Seqset,集合Seqset中的元素数量与集合Txtset中的元素数量相同,集合Seqset中的元素的序号为t,Seqset中序号为t的元素记作Seqset(t), 元素Seqset(t)为有序集合;
计算各分词之间的序列联系度的程序为:
S401,开设程序;获取Tokenset_t;获取集合Seqset中序号为t的元素Seqset(t),令Seqset(t)中的元素清空;
S402,令s的数值为1;设置变量s2;设置变量u,令变量u的数值为0;
S403,通过s获取Dtp(s);
S4041,令s2的数值为s的数值;
S4042,令s2的数值增加1;
S4043,通过s2获取Dtp(s2);
S4044,定义计算两个分词的分词数值信号之间的关联度的函数为Rel(),则Rel(Dtp (s),Dtp(s2))为计算Dtp(s)、Dtp(s2)之间的关联度记作Rel(s,s2),记数组Dtp(s)中序号为t的元素为Dtp(s)(t)、数组Dtp(s2)中序号为t的元素为Dtp(s2)(t),Rel(s,s2)的计算公式如下:
Figure 772268DEST_PATH_IMAGE002
S4045,计算Tokenset_t(s)与集合Tokenset_t中的其他分词的关联度,设置变量s3表示集合Tokenset_t中第s2个元素到第k个元素的序号,记Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度为Rel(s,s2,k),计算公式为:
Figure 593593DEST_PATH_IMAGE007
所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度;
S4046,进行对阈值的计算,函数exp()表示以自然数e为底数的指数函数,所述阈值记为u1的计算公式为:
u1=
Figure 801721DEST_PATH_IMAGE004
所得数值即为阈值u1的数值,并将u的数值设置为阈值u1的数值;
根据所述Rel(s,s2,k)和所述u进行对序列联系度的计算,记Tokenset_t(s)与集合Tokenset_t中的其他分词的序列联系度为Seq(Tokenset_t(s)),序列联系度Seq(Tokenset_t(s))的计算公式为:
Figure 239655DEST_PATH_IMAGE005
将所得序列联系度Seq(Tokenset_t(s))记作Seq_t_s并加入到集合Seqset(t)中作为Seqset(t)序号为s的元素;
S4047,将u的数值设置为Seq_t_s的数值;转到S4051;
S4051,判断s的数值是否大于或等于k,若是则转到S4052,若否则将s的数值增加1;转到S403;
S4052,将集合Seqset(t)作为集合Seqset中序号为t的元素并进行保存;结束程序;
集合Seqset中序号为t的元素Seqset(t)与集合Txtset中序号为t的网络数据文本Txtset(t) 进行分词得到的分词的集合Tokenset_t相互对应,所述集合Seqset(t)中的元素即为该元素对应序号的分词的序列联系度。
进一步地,在S500中,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为:对一个分词的序列联系度进行判断是否存在异常的方法为,在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s),若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值,则该网络数据文本Txtset(t)存在异常,记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t),Tokenset_t`∈Cu(Tokenset_t),记t`为集合Cu(Tokenset_t)中元素的序号,Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素,Tokenset_t`(s)为Tokenset_t`中序号为s的元素,Tokenset_t`(s)∈Tokenset_t`,函数len()为获取集合元素数量的函数,Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度,判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下:
Figure 863535DEST_PATH_IMAGE008
若满足上述公式,则表示分词Tokenset_t(s) 在Tokenset_t中存在异常,将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印;
其中,可优选地,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词的Python实现代码的关键部分可包括:
class Alarm:
"""
计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词:
"""
def seq(self):
"""
若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值
大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值
"""
global cu(tokenset_t)
n = len(cu(tokenset_t))
while True:
i = 0
while i + n <= len(cu(tokenset_t)):
sl = cu(tokenset_t)[i:i + n]
sr = cu(tokenset_t)[::-1]
if sl == sr:
return sl
i = i + 1
n = n - 1
if n == 0:
return None ;
即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本,并将所述预警文本发送到客户端的屏幕进行显示。
所述一种基于大数据的威胁情报预警文本分析系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于大数据的威胁情报预警文本分析方法实施例中的步骤,所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群。
本发明的实施例提供的一种基于大数据的威胁情报预警文本分析系统,如图2所示,该实施例的一种基于大数据的威胁情报预警文本分析系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于大数据的威胁情报预警文本分析方法实施例中的步骤,所述处理器执行所述计算机程序运行在以下系统的单元中:
网络爬虫单元,用于通过网络爬虫技术获取网络数据文本;
分词单元,用于对网络数据文本进行分词得到分词集合;
数值化处理单元,用于对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号;
序列联系度计算单元,用于根据各分词的分词数值信号计算各分词之间的序列联系度;
威胁情报筛选单元,用于计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将得到的威胁情报分词组合成预警文本发送到客户端的屏幕进行显示。
所述一种基于大数据的威胁情报预警文本分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种基于大数据的威胁情报预警文本分析系统包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于大数据的威胁情报预警文本分析方法及系统的示例,并不构成对一种基于大数据的威胁情报预警文本分析方法及系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于大数据的威胁情报预警文本分析系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于大数据的威胁情报预警文本分析系统的控制中心,利用各种接口和线路连接整个基于大数据的威胁情报预警文本分析的各个分区域。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种xxx方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明提供了一种基于大数据的威胁情报预警文本分析方法及系统,通过网络爬虫技术获取网络数据文本进行分词得到分词集合,并对分词集合中的各个分词进行数值化处理得到各分词的对应的分词数值信号,根据各分词的分词数值信号计算各分词之间的序列联系度计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,并将预警文本发送到客户端的屏幕进行显示,实现了根据网络数据对潜在的语义风险进行分析并快速显示的有益效果。
注:如果本申请中出现重复定义的变量或者代号,则该变量的作用范围只在本自然段中,或者重复定义的变量或者代号由于之前的变量或者代号一一对应,则变量或者代号的数量和序号保持一致,故可以重复定义。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims (7)

1.一种基于大数据的威胁情报预警文本分析方法,其特征在于,所述方法包括以下步骤:
S100,通过网络爬虫技术获取网络数据文本;
S200,对网络数据文本进行分词得到分词集合;
S300,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号;
S400,根据各分词的分词数值信号计算各分词之间的序列联系度;
S500,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本,并将预警文本发送到客户端的屏幕进行显示。
2.根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法,其特征在于,在S100中,通过网络爬虫技术获取网络数据文本的方法为:通过网络爬虫技术获取互联网的社交媒体上的网页文本,将获取到的网页文本作为字符串数据进行保存,将保存得到的文本文件作为网络数据文本,记所有的网络数据文本组成的集合为集合Txtset,以变量t表示集合Txtset中网络数据文本的序号,集合Txtset中序号为t的网络数据文本记为Txtset(t)。
3.根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法,其特征在于,在S200中,对网络数据文本进行分词得到分词集合的方法为:使用中文分词算法将所有的网络数据文本中保存的字符串数据进行分词,得到多个字符串的片段记作多个分词,并去除重复出现的分词,将多个分词组成的集合记作分词集合。
4.根据权利要求1所述的一种基于大数据的威胁情报预警文本分析方法,其特征在于,在S300中,对分词集合中的各个分词进行数值化处理,得到各分词的对应的分词数值信号的方法为:记分词集合为集合Tokenset,令变量n表示集合Tokenset中元素的数量,变量i表示集合Tokenset中元素的序号,i∈[1,n],变量Tokenset(i)表示集合Tokenset中序号为i的元素,将分词Tokenset(i)的字符串中的每个字符的十六进制数换算得到的二进制数进行相加的结果作为二进制字符bistr(i),变量bistr(i)表示集合Tokenset中序号为i的元素即分词Tokenset(i)的二进制字符,所述二进制字符bistr(i)为由字符“0”和字符“1”组成的字符串,以变量v表示所述二进制字符bistr(i)的字符串长度,进而通过字符串切分将bistr(i)分成由v个为0或1的数值组成v维数组,即将集合中的各个分词Tokenset(i)分别得到的v维数组记作数组tv(i),将集合中的各个分词Tokenset(i)的数组tv(i)的集合记为集合tvset,tv(i)在集合tvset中的序号为i,记数组tv(i)中的元素的序号为t,t∈[1,v],数组tv(i)中序号为t的元素为tv(i)_t,记函数Dtp()为对数组进行分词数值化处理的函数,Dtp(tv(i))表示通过函数Dtp()对数组tv(i)进行分词数值化处理,π为圆周率,cos()为计算余弦函数,Dtp(tv(i))的计算过程为:
Figure DEST_PATH_IMAGE001
Dtp(tv(i))所得结果为与数组tv(i)的数组大小相同的数组,Dtp(tv(i))所得结果中序号为t的元素为tv(i)_t*cos(π*(t/n)),将数组Dtp(tv(i))记作Dtp(i)并表示集合Tokenset中序号为i的分词Tokenset(i)对应的分词数值信号,由于分词数值与分词一一对应,则分词与分词数组的数量和序号保持一致,所以,分词数值的数组长度同样为v,分词数值信号中的元素的序号同样为t,记集合Tokenset中各分词对应的各个分词数值信号的集合为Dtpset,数组Dtp(i)在集合Dtpset中的序号为i。
5.根据权利要求4所述的一种基于大数据的威胁情报预警文本分析方法,其特征在于,在S400中,根据各分词的分词数值信号计算各分词之间的序列联系度的方法为:将网络数据文本Txtset(t)中保存的字符串数据进行分词得到的分词的集合作为Tokenset_t,记集合Txtset中各个网络数据文本Txtset(t) 分别进行分词得到的各个Tokenset_t的集合为Tokensets,集合Tokenset_t中的元素同时存在于集合Tokenset中,令变量s表示集合Tokenset_t中元素的序号,Tokenset_t中序号为s的元素记作Tokenset_t(s),变量k表示集合Tokenset_t中元素的总数,s∈[1,k],将通过Tokenset_t(s)的序号s得到分词Tokenset_t(s)在集合Dtpset中的分词数值信号记为Dtp(s);
设置集合Seqset,集合Seqset中的元素数量与集合Txtset中的元素数量相同,集合Seqset中的元素的序号为t,Seqset中序号为t的元素记作Seqset(t), 元素Seqset(t)为有序集合;
计算各分词之间的序列联系度的程序为:
S401,开始程序;获取Tokenset_t;获取集合Seqset中序号为t的元素Seqset(t),令Seqset(t)中的元素清空;
S402,令s的数值为1;设置变量s2;设置变量u,令变量u的数值为0;
S403,通过s获取Dtp(s);
S4041,令s2的数值为s的数值;
S4042,令s2的数值增加1;
S4043,通过s2获取Dtp(s2);
S4044,定义计算两个分词的分词数值信号之间的关联度的函数为Rel(),则Rel(Dtp(s),Dtp(s2))为计算Dtp(s)、Dtp(s2)之间的关联度记作Rel(s,s2),记数组Dtp(s)中序号为t的元素为Dtp(s)(t)、数组Dtp(s2)中序号为t的元素为Dtp(s2)(t),Rel(s,s2)的计算公式如下:
Figure DEST_PATH_IMAGE002
S4045,计算Tokenset_t(s)与集合Tokenset_t中的其他分词的关联度,设置变量s3表示集合Tokenset_t中第s2个元素到第k个元素的序号,记Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度为Rel(s,s2,k),计算公式为:
Figure DEST_PATH_IMAGE003
所得的Rel(s,s2,k)即为Tokenset_t(s)与集合Tokenset_t中第s2个到第k个分词的关联度;
S4046,进行对阈值的计算,函数exp()表示以自然数e为底数的指数函数,所述阈值记为u1的计算公式为:
u1=
Figure DEST_PATH_IMAGE004
;
所得数值即为阈值u1的数值,并将u的数值设置为阈值u1的数值;
根据所述Rel(s,s2,k)和u进行计算序列联系度,记Tokenset_t(s)与集合Tokenset_t中的其他分词的序列联系度为Seq(Tokenset_t(s)),序列联系度Seq(Tokenset_t(s))的计算公式为:
Figure DEST_PATH_IMAGE005
将所得序列联系度Seq(Tokenset_t(s))记作Seq_t_s并加入到集合Seqset(t)中作为Seqset(t)序号为s的元素;
S4047,将u的数值设置为Seq_t_s的数值;转到S4051;
S4051,判断s的数值是否大于或等于k,若是则转到S4052,若否则将s的数值增加1;转到S403;
S4052,将集合Seqset(t)作为集合Seqset中序号为t的元素并进行保存;结束程序;
集合Seqset中序号为t的元素Seqset(t)与集合Txtset中序号为t的网络数据文本Txtset(t) 进行分词得到的分词的集合Tokenset_t相互对应,所述集合Seqset(t)中的元素即为该元素对应序号的分词的序列联系度。
6.根据权利要求5所述的一种基于大数据的威胁情报预警文本分析方法,其特征在于,在S500中,计算筛选出与其他的分词之间的序列联系度存在异常的分词作为威胁情报分词,将得到的威胁情报分词组合成预警文本并将预警文本发送到客户端的屏幕进行显示的方法为:对一个分词的序列联系度进行判断是否存在异常的方法为,在任一网络数据文本Txtset(t)的分词的集合Tokenset_t中的任一分词Tokenset_t(s),若Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值,则该网络数据文本Txtset(t)存在异常,记在集合Tokensets中除了Tokenset_t的元素组成的集合为Cu(Tokenset_t),Tokenset_t`∈Cu(Tokenset_t),记t`为集合Cu(Tokenset_t)中元素的序号,Tokenset_t`为集合Cu(Tokenset_t)中序号为t`的元素,Tokenset_t`(s)∈Tokenset_t`,Tokenset_t`(s)为Tokenset_t`中序号为s的元素,函数len()为获取集合元素数量的函数,Seq(Tokenset_t`(s))表示Tokenset_t`(s)与Tokenset_t`中的其他分词的序列联系度,判断Tokenset_t(s)在Tokenset_t中的序列联系度Seq(Tokenset_t(s))的数值是否大于该分词Tokenset_t(s)在集合Tokensets中的其他元素中的数值的公式如下:
Figure DEST_PATH_IMAGE006
若满足上述公式,则表示分词Tokenset_t(s) 在Tokenset_t中存在异常,将分词Tokenset_t(s)及其所在的Tokenset_t发送到输出设备进行显示或打印,即将得到的威胁情报分词进行字符串拼接组合成的字符串作为预警文本,并将所述预警文本发送到客户端的屏幕进行显示。
7.一种基于大数据的威胁情报预警文本分析系统,其特征在于,所述一种基于大数据的威胁情报预警文本分析系统包括:处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1中的一种基于大数据的威胁情报预警文本分析方法中的步骤,所述一种基于大数据的威胁情报预警文本分析系统运行于桌上型计算机、笔记本、掌上电脑及云端数据中心的计算设备中。
CN202111189527.XA 2021-10-13 2021-10-13 一种基于大数据的威胁情报预警文本分析方法及系统 Active CN113627179B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111189527.XA CN113627179B (zh) 2021-10-13 2021-10-13 一种基于大数据的威胁情报预警文本分析方法及系统
PCT/CN2022/124189 WO2023061304A1 (zh) 2021-10-13 2022-10-09 一种基于大数据的威胁情报预警文本分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111189527.XA CN113627179B (zh) 2021-10-13 2021-10-13 一种基于大数据的威胁情报预警文本分析方法及系统

Publications (2)

Publication Number Publication Date
CN113627179A true CN113627179A (zh) 2021-11-09
CN113627179B CN113627179B (zh) 2021-12-21

Family

ID=78391229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111189527.XA Active CN113627179B (zh) 2021-10-13 2021-10-13 一种基于大数据的威胁情报预警文本分析方法及系统

Country Status (2)

Country Link
CN (1) CN113627179B (zh)
WO (1) WO2023061304A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061304A1 (zh) * 2021-10-13 2023-04-20 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116859831B (zh) * 2023-05-15 2024-01-26 广东思创智联科技股份有限公司 一种基于物联网的工业大数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120239667A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Keyword extraction from uniform resource locators (urls)
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109698823A (zh) * 2018-11-29 2019-04-30 广东电网有限责任公司信息中心 一种网络威胁发现方法
CN112182461A (zh) * 2020-08-21 2021-01-05 杭州安恒信息技术股份有限公司 网页敏感度的计算方法、装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170650B (zh) * 2016-12-07 2021-05-25 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
JP6969431B2 (ja) * 2018-02-20 2021-11-24 日本電信電話株式会社 形態素解析学習装置、形態素解析装置、方法、及びプログラム
CN111400439A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 网络不良数据监控方法、装置及存储介质
CN113627179B (zh) * 2021-10-13 2021-12-21 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120239667A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Keyword extraction from uniform resource locators (urls)
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109698823A (zh) * 2018-11-29 2019-04-30 广东电网有限责任公司信息中心 一种网络威胁发现方法
CN112182461A (zh) * 2020-08-21 2021-01-05 杭州安恒信息技术股份有限公司 网页敏感度的计算方法、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHI JING: "Text Segmentation Based on Model LDA", 《CHINESE JOURNAL OF COMPUTERS》 *
刘子健: "基于深度学习的不文明文本过滤方法研究", 《中国优秀硕士学位论文全文数据库》 *
董坚峰: "面向公共危机预警的网络舆情分析研究", 《中国博士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061304A1 (zh) * 2021-10-13 2023-04-20 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Also Published As

Publication number Publication date
CN113627179B (zh) 2021-12-21
WO2023061304A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
CN113627179B (zh) 一种基于大数据的威胁情报预警文本分析方法及系统
CN107038157B (zh) 基于人工智能的识别错误发现方法、装置及存储介质
CN110020122B (zh) 一种视频推荐方法、系统及计算机可读存储介质
US10229154B2 (en) Subject-matter analysis of tabular data
CN107315779A (zh) 日志分析方法和系统
CN112364637B (zh) 一种敏感词检测方法、装置,电子设备及存储介质
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN111949798A (zh) 图谱的构建方法、装置、计算机设备和存储介质
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN113379469A (zh) 一种异常流量检测方法、装置、设备及存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
US20200111017A1 (en) Intelligent searching of electronically stored information
CN112003819B (zh) 识别爬虫的方法、装置、设备和计算机存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
CN113762294A (zh) 一种特征向量维度压缩方法、装置、设备、介质
CN108009233B (zh) 一种图像还原方法、装置、计算机设备及存储介质
CN113792210B (zh) 一种基于语义实时分析的热控方法及系统
CN116502611B (zh) 标注方法、标注装置、设备及可读存储介质
CN113743110B (zh) 一种基于微调生成式对抗网络模型的漏词检测方法及系统
CN114116989B (zh) 一种基于ocr识别的格式化文档生成方法及系统
CN113792608B (zh) 一种智能语义分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant