CN113268647B - 一种网络安全情报数据的分类方法、系统及装置 - Google Patents

一种网络安全情报数据的分类方法、系统及装置 Download PDF

Info

Publication number
CN113268647B
CN113268647B CN202110810936.0A CN202110810936A CN113268647B CN 113268647 B CN113268647 B CN 113268647B CN 202110810936 A CN202110810936 A CN 202110810936A CN 113268647 B CN113268647 B CN 113268647B
Authority
CN
China
Prior art keywords
data
information
key
readable
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110810936.0A
Other languages
English (en)
Other versions
CN113268647A (zh
Inventor
雷晓荣
孙和通
温道明
许冠源
童亮斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Original Assignee
Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd filed Critical Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority to CN202110810936.0A priority Critical patent/CN113268647B/zh
Publication of CN113268647A publication Critical patent/CN113268647A/zh
Application granted granted Critical
Publication of CN113268647B publication Critical patent/CN113268647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明涉及网络安全情报的分类技术领域,公开了一种网络安全情报数据的分类方法、系统及装置,通过内容关键词与内容关键句双重检索的方式确定安全情报数据的分类,实现了以少量特征信息确定类别范围再以多量特征信息进行类别判定的方式,既可以避免检索特征内容过多造成的查找遗漏,也可以避免检索特征内容过少造成的分类错误,同时也可以有效的提高检索的效率,进一步而言,内容关键句的检索为方法提供了迭代更新的功能,使得方法可以不断的增加自身的分类库,提高工作效率。

Description

一种网络安全情报数据的分类方法、系统及装置
技术领域
本发明涉及网络安全情报的分类技术领域,具体是一种网络安全情报数据的分类方法、系统及装置。
背景技术
网络安全是当前环境下一个十分重要的社会话题,其所涵盖的内容也是十分广阔的,针对不同的部门而言,网络安全具有着对他们而言不同的工作含义,例如对网络运行和管理者的角度来说,网络安全是指信息网能够正常运行不受外界攻击和破坏,而对于安全部门以及信息部门等,网络安全则是指在网络中传播的数据和内容是合法安全无害的,不会对国家安全或是商业产生威胁,能够积极向上传播的,因此对网络进行监测以获取能够表征网络安全的情报数据并对其进行分类处理对于网络安全而言是十分重要的。
现有技术中所采取的网络安全情报数据的分类方法多是利用人工设定安全检索的特征内容,然后通过网络爬取情报数据进行关键内容提取并与特征内容进行比对分类来完成的,基本上可以解决对情报数据进行分类的目的。
但现有技术的分类方法依然存在影响其使用的问题,在使用中,存在单一安全情报数据包括多个关键内容导致关键内容提取判断错误最终影响分类的情况发生,而采取增加关键内容包含的内容以缩小检索范围精确分类的方式,又会使得对情报数据中影响到网络安全的内容检索遗漏的情况发生。
发明内容
本发明的目的在于提供一种网络安全情报数据的分类方法、系统及装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
第一方面
一种网络安全情报数据的分类方法,包含以下步骤:
检索待安全分析的网站,获取该所述网站中的安全情报数据;
对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据,所述可读化数据处理为将所述安全情报数据进行类别统一化;
根据关键信息提取规则对所述可读化情报数据进行关键信息提取,所述关键信息包括内容关键词以及内容关键句;
根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类。
作为本发明的进一步方案:所述分类检索库包括:
数据类别,用于表征所述安全情报数据的类别;
模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词;以及
模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句。
作为本发明的再进一步方案:每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括:
逐一获取所述可读化情报数据及与其相对应的关键信息;
读取所述关键信息中的数个内容关键词;
根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句;
读取所述检索比对结果中的模型关键句;
根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比,则
所述可读化情报数据的分类为与所述模型关键句对应的数据类别;
若所述内容关键句与所述模型关键句的重合度未到预设百分比,则
对所述分类检索库进行人工判断迭代。
作为本发明的再进一步方案:所述对所述分类检索库进行人工判断迭代的步骤具体包括:
输出与所述可读化情报数据相对应的安全情报数据;
接收反馈信息,所述反馈信息包括数据类别信息;
根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
作为本发明的再进一步方案:所述安全情报数据的类型包括文字数据、音频数据和图片数据,所述对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据的步骤包括:
对所述安全情报数据的数据形式进行判定;
若所述安全情报数据为文字数据时,则所述安全情报数据是可读化情报数据;
若所述安全情报数据为音频数据,对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据;
若所述安全情报数据为图片数据,则对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
作为本发明的再进一步方案:所述将所述图片数据转化为文字数据的步骤具体包括:
对所述安全情报数据进行图像文字识别,读取所述图片数据中图片表面的文字数据;
对所述安全情报数据进行缩放并转化为灰度图像,并进行灰度值特征点标记;
根据所述灰度值特征点标记的灰度值数值生成图片文字数据生成图片文字数据,所述图片文字数据用于对图像进行特征检索;
根据所述文字数据与所述图片文字数据生成可读化情报数据。
第二方面
本发明实施例旨在提供一种网络安全情报数据的分类系统,包括:
情报数据获取模块,用于检索待安全分析的网站,获取所述网站中的安全情报数据;
数据类型转化模块,用于对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据,所述可读化数据处理为将所述安全情报数据进行类别统一化;
关键信息提取模块,用于根据关键信息提取规则对所述可读化情报数据进行关键信息提取;
分类判定迭代模块,用于根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类;
所述分类检索库包括:
数据类别,用于表征所述安全情报数据的类别;
模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词;以及
模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句;
每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述分类判定迭代模块包括:
检索比对单元,用于逐一获取所述可读化情报数据及与其相对应的关键信息,读取所述关键信息中的数个内容关键词,根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句;
判定执行单元,用于读取所述检索比对结果中的模型关键句,根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比,则所述可读化情报数据的分类为与所述模型关键句对应的数据类别,若所述内容关键句与所述模型关键句的重合度未到预设百分比,则对所述分类检索库进行人工判断迭代;
所述对所述分类检索库进行人工判断迭代的具体包括步骤:
输出与所述可读化情报数据相对应的安全情报数据;
接收反馈信息,所述反馈信息包括数据类别信息;
根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
作为本发明的再进一步方案:所述数据类型转化模块包括:
数据类型判断单元,用于对所述安全情报数据的数据形式进行判定;
文字数据转换单元,用于根据所述安全情报数据内容生成可读化情报数据;
音频数据转换单元,用于对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据;以及
图片数据转换单元,用于对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
第三方面
本发明实施例旨在提供一种网络安全情报数据的分类装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述网络安全情报数据的分类方法的任一步骤。
与现有技术相比,本发明的有益效果是:通过内容关键词与内容关键句双重检索的方式确定安全情报数据的分类,实现了以少量特征信息确定类别范围再以多量特征信息进行类别判定的方式,即可以避免检索特征内容过多造成的查找遗漏,也可以避免检索特征内容过少造成的分类错误,同时也可以有效的提高检索的效率,进一步而言,内容关键句的检索为方法提供了迭代更新的功能,使得方法可以不断的增加自身的分类库,提高工作效率。
附图说明
图1为一种网络安全情报数据的分类方法中数据类别与关键信息的关系示意图。
图2为一种网络安全情报数据的分类方法的流程图。
图3为一种网络安全情报数据的分类方法中判定步骤的流程图。
图4为一种网络安全情报数据的分类方法中迭代步骤的流程图。
图5为一种网络安全情报数据的分类方法中生成可读化情报数据的流程图。
图6为一种网络安全情报数据的分类方法中图片数据的安全情报数据的处理流程图。
图7为一种网络安全情报数据的分类系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现方式进行详细描述。
如图1和图2所述,为本发明一个实施例提供的一种网络安全情报数据的分类方法,包含以下步骤:
S200,检索待安全分析的网站,获取该所述网站中的安全情报数据。
这一步骤可以通过网络爬虫来实现,通过网络爬虫对目标网站进行爬取相关重要的信息,以获取安全情报数据,这些安全情报数据的类型及内容均可以是多种多样的,当然这里的网络爬虫一般老说具有反监测功能,以避免留下检索的痕迹。
S400,对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据,所述可读化数据处理为将所述安全情报数据进行类别统一化。
这一步骤是针对类别不同的安全情报数据进行转化处理而设置的,因安全情报数据的种类繁多,因此难以直接采用相同的分类处理方式进行识别分类,因此将安全情报数据进行转化,将不同类别的安全情报数据转化为相同的表达形式,例如可以将语音类信息转化为文字类信息,转化为相同类别的信息之后,便能够使用相同的判断标准对其进行判断和分类。
S600,根据关键信息提取规则对所述可读化情报数据进行关键信息提取,所述关键信息包括内容关键词以及内容关键句。
在这一步骤中,程序将对安全情报数据进行内容关键词和内容关键句进行提取,这里的关键词和关键句指的是能够直接或间接提现这一安全情报数据内容的词句,也是用来对安全情报数据进行分类的依据。
S800,根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类。
在这一步骤中,通过根据关键词和关键句对分类检索库进行比对分析,确定该条安全情报数据的类别,然后根据判断的过程,可能会得到额外不在分类检索库中的关键词和关键句且对于类别判断十分重要,此时便对分类检索库进行增量内容更新,以涵盖全新的安全情报数据类别及其相关的关键信息。
如图1所示,作为本发明一种优选的实施例,所述分类检索库包括:
901,数据类别,用于表征所述安全情报数据的类别。
这里,数据类别指的就是安全情报数据的分类。
902,模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词。
模型关键词是用于和内容关键词进行比对筛选数据类别的重要依据之一。
903,模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句。
这里的模型关键句是用于和内容关键句进行比对筛选类别的重要依据之一,也是用来最终确定数据类别的主要依据,它可以是由多个字词组合而成的。
如图1和图3所述,作为本发明另一种优选的实施例,每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括:
S801,逐一获取所述可读化情报数据及与其相对应的关键信息。
S802,读取所述关键信息中的数个内容关键词。
S803,根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句。
S804,读取所述检索比对结果中的模型关键句。
S805,根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比。
S806,所述可读化情报数据的分类为与所述模型关键句对应的数据类别。
以上步骤所执行的是对分类也就是数据类别进行初步筛选的步骤,可以参考图1所示,这一执行步骤就是检索符合条件的模型关键词902,以此指向该条安全情报数据可能属于的分类也就是数据类别901,因为在检索筛选的过程中可能会出现多项符合的模型关键词902,因此经由这多项模型关键词就会获得多个匹配的数据类别901,这多个数据类别901均可能会是符合该条安全情报数据的分类,也有可能均不符合该条安全情报数据的分类,因此,仍然需要对其进行进一步的确定,此时包含更多类别关键内容的模型关键句便起到了最终判定的作用,逐一根据这些数据类别对应的模型关键句对内容关键句进行判定,从而最终确定该条安全情报数据的分类,进一步来说,通过数据量较小的内容关键词进行快速检索,然后再对检索结构进行进一步筛选判定的方式,对于检索的效率和速度也是具有良好的提升的。
S807,若所述内容关键句与所述模型关键句的重合度未到预设百分比,则对所述分类检索库进行人工判断迭代。
在前述步骤执行时,还存在多个模型关键句均达不到符合要求也就是重合度未达到预设百分比,此时可以认为该条安全情数据息是未曾检索到的,且未曾检索到相似内容的全新安全情报数据,需要通过人工操作,以对分类检索库进行更新,增加新的安全情报数据的类别,也能够让相关人员第一时间了解到最新发现的安全情报数据,避免错过重要内容。
如图4所述,作为本发明另一种优选的实施例,所述对所述分类检索库进行人工判断迭代的步骤具体包括:
S8071,输出与所述可读化情报数据相对应的安全情报数据。
S8072,接收反馈信息,所述反馈信息包括数据类别信息。
S8073,根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
这里,人工迭代的方式较为简单,只是将该条分类检索库无法分类的安全情报数据通过显示装置展示给相关人员,再由相关人员进行讨论设定全新的分类(甚至安全级别等),也就是反馈信息中的内容,然后再由设备对其进行存储记忆,达到更新迭代的目的。
如图5所述,作为本发明另一种优选的实施例,所述安全情报数据的类型包括文字数据、音频数据和图片数据,所述对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据的步骤包括:
S401,对所述安全情报数据的数据形式进行判定。
S402,若所述安全情报数据为文字数据时,则安全情报数据是可读化情报数据。
S403,若所述安全情报数据为音频数据,对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据。
S404,若所述安全情报数据为图片数据,则对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
在这一步骤中是对数据形式转化步骤的说明,这里举例说明了语音、图片类别的安全情报数据,且均以转化为文字类识别方式的可读化情报数据,其中语音类的最为方便,现有技术中拥有较多较为成熟的语音转文字的识别方法程序,直接对内容进行识别转换便可。
如图6所述,作为本发明另一种优选的实施例,所述将所述图片数据转化为文字数据的步骤具体包括:
S4041,对所述安全情报数据进行图像文字识别,读取所述图片数据中图片表面的文字数据。
S4042,对所述安全情报数据进行缩放并转化为灰度图像,并进行灰度值特征点标记。
S4043,根据所述灰度值特征点标记的灰度值数值生成图片文字数据,所述图片文字数据用于对图像进行特征检索。
S4044,根据所述文字数据与所述图片文字数据生成可读化情报数据。
这一步骤是对图片类安全情报数据进行转化的方式介绍,首先对图片上的文字进行内容识别,这也是十分重要的内容之一,然后便是对图片本身进行处理,转化为特征数据,可以理解为通过图片特征检索图片相类似的内容处理方式,这些携带了图片特征信息的特征数据即可以理解为用于检索比对的文字数据(对计算机而言),然后提取其特征作为可读化情报数据。
如图7所述,本发明还提供了一种网络安全情报数据的分类系统,包括:
100,情报数据获取模块,用于检索待安全分析的网站,获取该所述网站中的安全情报数据。
300,数据类型转化模块,用于对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据。
500,关键信息提取模块,用于根据关键信息提取规则对所述可读化情报数据进行关键信息提取。
700,分类判定迭代模块,用于根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类。
所述分类检索库包括:
数据类别,用于表征所述安全情报数据的类别。
模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词。
模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句。
每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述分类判定迭代模块包括:
检索比对单元,用于逐一获取所述可读化情报数据及与其相对应的关键信息,读取所述关键信息中的数个内容关键词,根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句。
判定执行单元,用于读取所述检索比对结果中的模型关键句,根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比,则所述可读化情报数据的分类为与所述模型关键句对应的数据类别,若所述内容关键句与所述模型关键句的重合度未到预设百分比,则对所述分类检索库进行人工判断迭代。
所述对所述分类检索库进行人工判断迭代的具体包括步骤:
输出与所述可读化情报数据相对应的安全情报数据。
接收反馈信息,所述反馈信息包括数据类别信息。
根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
具体的来说,所述数据类型转化模块包括:
301,数据类型判断单元,用于对所述安全情报数据的数据形式进行判定。
302,文字数据转换单元,用于根据所述安全情报数据内容生成可读化情报数据。
303,音频数据转换单元,用于对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据。
304,图片数据转换单元,用于对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
本发明还提供了一种网络安全情报数据的分类装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述网络安全情报数据的分类方法中的任一步骤。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (6)

1.一种网络安全情报数据的分类方法,其特征在于,包含以下步骤:
检索待安全分析的网站,获取所述网站中的安全情报数据;
对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据,所述可读化数据处理为将所述安全情报数据进行类别统一化;
根据关键信息提取规则对所述可读化情报数据进行关键信息提取,所述关键信息包括内容关键词以及内容关键句;
根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类;
所述分类检索库包括:
数据类别,用于表征所述安全情报数据的类别;
模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词;以及
模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句;
每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括:
逐一获取所述可读化情报数据及与其相对应的关键信息;
读取所述关键信息中的数个内容关键词;
根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句;
读取所述检索比对结果中的模型关键句;
根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比,则
所述可读化情报数据的分类为与所述模型关键句对应的数据类别;
若所述内容关键句与所述模型关键句的重合度未到预设百分比,则
对所述分类检索库进行人工判断迭代;
所述对所述分类检索库进行人工判断迭代的步骤具体包括:
输出与所述可读化情报数据相对应的安全情报数据;
接收反馈信息,所述反馈信息包括数据类别信息;
根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
2.根据权利要求1所述的网络安全情报数据的分类方法,其特征在于,所述安全情报数据的类型包括文字数据、音频数据和图片数据,所述对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据的步骤包括:
对所述安全情报数据的数据形式进行判定;
若所述安全情报数据为文字数据时,则所述安全情报数据是可读化情报数据;
若所述安全情报数据为音频数据,对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据;
若所述安全情报数据为图片数据,则对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
3.根据权利要求2所述的网络安全情报数据的分类方法,其特征在于,所述将所述图片数据转化为文字数据,生成可读化情报数据的步骤具体包括:
对所述安全情报数据进行图像文字识别,读取所述安全情报数据中图片数据的文字数据;
对所述安全情报数据进行缩放并转化为灰度图像,并进行灰度值特征点标记;
根据所述灰度值特征点标记的灰度值数值生成图片文字数据,所述图片文字数据用于对图像进行特征检索;
根据所述文字数据与所述图片文字数据生成可读化情报数据。
4.一种网络安全情报数据的分类系统,其特征在于,包括:
情报数据获取模块,用于检索待安全分析的网站,获取所述网站中的安全情报数据;
数据类型转化模块,用于对所述安全情报数据进行数据形式判定,并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理,生成可读化情报数据,所述可读化数据处理为将所述安全情报数据进行类别统一化;
关键信息提取模块,用于根据关键信息提取规则对所述可读化情报数据进行关键信息提取;
分类判定迭代模块,用于根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定,并判断是否进行分类检索库迭代,根据所述分类判定结果对所述安全情报数据进行分类;
所述分类检索库包括:
数据类别,用于表征所述安全情报数据的类别;
模型关键词,用于表征所述数据类别的特征信息,每个所述数据类别对应至少一个模型关键词;以及
模型关键句,用于表征所述数据类别的特征信息,每个所述数据类别对应单一的模型关键句;
每个所述关键信息的内容关键词数量至少为两个,每个所述关键信息的内容关键句为一个,所述分类判定迭代模块包括:
检索比对单元,用于逐一获取所述可读化情报数据及与其相对应的关键信息,读取所述关键信息中的数个内容关键词,根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对,生成检索比对结果,所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句;
判定执行单元,用于读取所述检索比对结果中的模型关键句,根据多个所述模型关键句对所述内容关键句依次进行比对判定,若所述内容关键句与所述模型关键句的重合度达到预设百分比,则所述可读化情报数据的分类为与所述模型关键句对应的数据类别,若所述内容关键句与所述模型关键句的重合度未到预设百分比,则对所述分类检索库进行人工判断迭代;
所述对所述分类检索库进行人工判断迭代的具体包括步骤:
输出与所述可读化情报数据相对应的安全情报数据;
接收反馈信息,所述反馈信息包括数据类别信息;
根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代,其中所述内容关键词用于生成所述数据类别的模型关键词,所述内容关键句用于生成所述数据类别的模型关键句。
5.根据权利要求4所述的网络安全情报数据的分类系统,其特征在于,所述安全情报数据的类型包括文字数据、音频数据和图片数据,所述数据类型转化模块包括:
数据类型判断单元,用于对所述安全情报数据的数据形式进行判定;
文字数据转换单元,用于根据所述安全情报数据内容生成可读化情报数据;
音频数据转换单元,用于对所述安全情报数据执行智能语音转化程序,将所述音频数据转化为文字数据,生成可读化情报数据;以及
图片数据转换单元,用于对所述安全情报数据执行特征提取程序,将所述图片数据转化为文字数据,生成可读化情报数据。
6.一种网络安全情报数据的分类装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至3中任一项所述网络安全情报数据的分类方法的步骤。
CN202110810936.0A 2021-07-19 2021-07-19 一种网络安全情报数据的分类方法、系统及装置 Active CN113268647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110810936.0A CN113268647B (zh) 2021-07-19 2021-07-19 一种网络安全情报数据的分类方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110810936.0A CN113268647B (zh) 2021-07-19 2021-07-19 一种网络安全情报数据的分类方法、系统及装置

Publications (2)

Publication Number Publication Date
CN113268647A CN113268647A (zh) 2021-08-17
CN113268647B true CN113268647B (zh) 2021-10-29

Family

ID=77236714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110810936.0A Active CN113268647B (zh) 2021-07-19 2021-07-19 一种网络安全情报数据的分类方法、系统及装置

Country Status (1)

Country Link
CN (1) CN113268647B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、系统及相关装置
CN110413864A (zh) * 2019-08-06 2019-11-05 南方电网科学研究院有限责任公司 一种网络安全情报采集方法、装置、设备及存储介质
CN112668321B (zh) * 2020-12-29 2023-11-07 竹间智能科技(上海)有限公司 关键词提取方法及装置、电子设备、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN113268647A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN110765265A (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN110765235A (zh) 训练数据的生成方法、装置、终端及可读介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN114186019A (zh) 结合rpa和ai的企业项目的审核方法及装置
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN117033571A (zh) 知识问答系统构建方法及系统
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN115221332A (zh) 一种危化品事故事理图谱的构建方法与系统
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN113268647B (zh) 一种网络安全情报数据的分类方法、系统及装置
CN115618085A (zh) 一种基于动态标签的接口数据暴露探测方法
CN113449083B (zh) 作业安全管理方法、装置、设备及存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant