CN115687960B - 一种面向开源安全情报的文本聚类方法 - Google Patents
一种面向开源安全情报的文本聚类方法 Download PDFInfo
- Publication number
- CN115687960B CN115687960B CN202211712713.1A CN202211712713A CN115687960B CN 115687960 B CN115687960 B CN 115687960B CN 202211712713 A CN202211712713 A CN 202211712713A CN 115687960 B CN115687960 B CN 115687960B
- Authority
- CN
- China
- Prior art keywords
- text
- open source
- word
- document
- safety information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 239000013604 expression vector Substances 0.000 abstract description 3
- 239000000463 material Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开属于安全情报领域,具体而言涉及一种面向开源安全情报的文本聚类方法,包括:S1经多源获取情报文本,建立开源安全情报文本集,开源安全情报文本集包括文本来源已有的格式化数据;S2基于开源安全情报文本集中的特殊信息字段,得到安全情报领域词库;S3根据安全情报领域词库对开源安全情报文本集中文档进行分词,并得到非停用词;S4计算非停用词在各个文档中的TF‑IDF值,根据TF‑IDF值形成文档特征词汇集,文档特征词汇集由TF‑IDF值所对应的非停用词形成;S5获取文档特征词汇集中词汇的特征表示向量;S6通过聚类算法得到经由特征表示向量表示的文档相似度,得到聚类结果。通过上述设置以提升安全情报文本的聚类准确率。
Description
技术领域
本公开属于安全情报领域,具体而言涉及一种面向开源安全情报的文本聚类方法。
背景技术
随着通信数字化网络化的发展,分析人员面临的情报素材数量呈爆炸式增长。面临海量素材,难以单纯再依靠人力对其进行逐份分析和审阅,必须借助计算机和智能算法,对原始素材预先进行相关性分析,完成主题聚类,然后按需求和方向进行综合分析。
现有的文本聚类技术或是面向互联网的通用信息素材,或是面向金融、医疗、法律、电商等民用领域,无法应对安全情报聚类的特殊场景,对专有词汇的分词效果欠佳、识别和抽取精度不高,文本相似度算法与领域贴合不紧密,导致最终聚类效果不理想。
发明内容
本公开正是基于现有技术的上述需求而提出的,本公开要解决的技术问题是提供一种面向开源安全情报的文本聚类方法以提升安全情报文本的聚类准确率。
为了解决上述问题,本公开提供的技术方案包括:
提供了一种面向开源安全情报的文本聚类方法,包括:S1经多源获取情报文本,建立开源安全情报文本集,所述开源安全情报文本集包括文本来源已有的格式化数据;S2基于开源安全情报文本集中的特殊信息字段,得到安全情报领域词库;S3根据安全情报领域词库对开源安全情报文本集中文档进行分词,并得到非停用词;S4计算所述非停用词在各个文档中的TF-IDF值,根据所述TF-IDF值形成文档特征词汇集,所述文档特征词汇集由所述TF-IDF值所对应的非停用词形成;S5获取文档特征词汇集中词汇的特征表示向量;S6通过聚类算法得到经由所述特征表示向量表示的文档相似度,得到聚类结果。
优选的,所述方法还包括评估所述聚类结果的准确率。
优选的,所述S2包括:获取多源情报文本中的特殊信息字段,形成安全情报领域词库的基础集;组合拼接所述基础集中长度小于第一长度的词汇,形成临时扩展集;通过所述临时扩展集中的词汇和开源安全情报文本集之间的匹配,得到词汇的命中得分,并根据命中得分得到安全情报领域词库。
优选的,所述命中得分与开源安全情报文本集中的标题内容和正文内容相关联,
所述命中得分表示为:其中,S为命中得分,N表示开源安全情报文本集中的
文本数量,α和β分别为标题命中权重和正文命中权重,t i 和c i 分别为在第i篇文本标题中和
正文中的命中次数。
优选的,所述根据安全情报领域词库对开源安全情报文本集中文档进行分词包括:基于安全情报领域词库加入通用文本词库,通过词典匹配和隐马尔可夫模型进行分词。
优选的,计算所述非停用词在各个文档中的TF-IDF值表示为:
其中,i为非停用词编号,j为文档编号,n ij 为词汇i在文档j
中出现的次数,w j 为文档j的词量,N为开源安全情报文本集中的文档总数,d i 为开源安全情
报文本集中所包含非停用词编号i所对应词汇的文档个数。
优选的,当所述命中得分大于第一预设阈值时,将其所对应的词汇纳入至安全情报领域词库中。
优选的,当所述TF-IDF值大于第二预设阈值时,其所对应的词汇与安全情报领域词库组合形成文档特征词汇集。
与现有技术相比,本公开结合领域内专业知识,针对素材的特点设计积累了相应的专业词典,创建了面向领域的特殊分词规则和文本表示方法,能够有效改进专有词汇的识别和抽取精度,提高文本相似性计算的领域贴合度,提升聚类准确度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本公开提供的一种面向开源安全情报的文本聚类方法的步骤流程图;
图2为本公开实施例中S2的步骤流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本公开实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接可以是机械连接,也可以是电连接可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
全文中描述使用的术语“顶部”、“底部”、“在……上方”、“下”和“在……上”是相对于装置的部件的相对位置,例如装置内部的顶部和底部衬底的相对位置。可以理解的是装置是多功能的,与它们在空间中的方位无关。
为便于对本申请实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本申请实施例的限定。
本实施例提供了一种面向开源安全情报的文本聚类方法,如图1和图2所示。
所述面向开源安全情报的文本聚类方法包括:
S1经多源获取情报文本,建立开源安全情报文本集,所述开源安全情报文本集包括文本来源已有的格式化数据。
具体而言,以CNNVD(国家信息安全漏洞库)、安全博客、技术论坛、安全企业专题报告和安全智库研究报告等与安全情报相关的网站或信息作为来源获取安全情报文本,并对安全情报文本进行搜集和汇总,从而建立开源安全情报文本集。在搜集和汇总的过程中,保留文本来源已有的一些格式化数据,进而使得建立起的安全情报文本包含有标题、作者、发布机构、关键字、正文等的相关内容。
S2基于开源安全情报文本集中的特殊信息字段,得到安全情报领域词库。
如图2所示,所述安全情报领域词库的建立过程包括:
S21获取多源情报文本中的特殊信息字段,形成安全情报领域词库的基础集。
所述特殊信息字段基于安全人员的专业知识进行选择,具体而言,上述多个来源中对于安全情报领域较为权威的网站或文件均经过专业机构中专业人员的核对和校准,从而保障了文本素材的准确性和可信度。由此选取权威网站和文件中的特殊信息字段作为参考,例如选取CNNVD、企业专题报告和智库研究报告等中的关键字、发布机构和漏洞详情中的危害等级等,将获取到的特殊信息字段作为安全情报领域词库的基础集。
S22组合拼接所述基础集中长度小于第一长度的词汇,形成临时扩展集。
将安全情报领域词库的基础集中的词汇进行长度小于3的组合拼接后,形成临时扩展集。
由于经多源获取的情报文本中的关键字、漏洞号、发布机构以及危害等级等经常以并列拼接的形式出现,拼接之后的词汇命中能够有效提高匹配的语义准确度。示例性的,“cryptolocker”、“勒索病毒”、“攻击”都是领域基础集中的词汇,而“crytolocker勒索病毒攻击”经常会合并出现,将“cryptolocker”、“勒索病毒”、“攻击”合并加入扩展集后,既能扩大命中范围,其命中本身也会包含更精确的语义匹配。
S23通过所述临时扩展集中的词汇和开源安全情报文本集之间的匹配,得到词汇的命中得分,并根据命中得分得到安全情报领域词库。
具体而言,所述开源安全情报文本中包括多个文档,将临时扩展集中的各个词汇与开源安全情报文本集中的各个文档的标题全文和正文全文分别进行匹配,根据匹配情况得到所匹配的词汇的命中得分。
基于上述描述,可知所述命中得分与开源安全情报文本集中的文档的标题内容和正文内容相关联,具体的,所述命中得分可以表示为:
其中,S为命中得分,N表示开源安全情报文本集中的文本数量,α和β分别为标题命中权重和正文命中权重,t i 和c i 分别为在第i篇文本标题中和正文中的命中次数,所述命中次数为对应词汇的出现次数。
得到所述命中得分后,对比所述命中得分与第一预设阈值,当所述命中得分大于所述第一预设阈值时,所述命中得分所对应的词汇将加入到安全情报领域词库中。
S3根据安全情报领域词库对开源安全情报文本集中文档进行分词,并得到非停用词。
将S2中生成的安全情报领域词库加入通用文本词库,利用词典匹配和隐马尔可夫模型进行分词。
将领域词库并入通用词库后,相当于扩充了整体文本语料的内容丰度和领域相关性,在后续匹配与分类时即可使模型能力扩展,从而具备对安全情报领域文本进行聚类的内容基础。
所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
S4计算所述非停用词在各个文档中的TF-IDF值,根据所述TF-IDF值形成文档特征词汇集,所述文档特征词汇集由所述TF-IDF值所对应的非停用词形成。
计算S3步骤中经分词后得到的所有的非停用词在各个文档中的TF-IDF值,并且对不属于安全情报领域词库的词汇按照TF-IDF值的大小进行排序。计算非停用词在各文档中的TF-IDF值的过程如下:
其中,i为非停用词编号,j为文档编号,n ij 为词汇i在文档j中出现的次数,w j 为文档j的词量,N为开源安全情报文本集中的文档总数,d i 为开源安全情报文本集中所包含非停用词编号i所对应词汇的文档个数。
得到TF-IDF值后,对比所述TF-IDF值与第二预设阈值,当所述TF-IDF值大于所述第二预设阈值时,该TF-IDF值所对应的词汇与安全情报领域词库合并构成文档特征词汇集,并记所述文档特征词汇集中的词汇量为W。
S5获取文档特征词汇集中词汇的特征表示向量。
对于每一个文档,文档的标题和文本分别使用维度为W的向量T和C表示,T和C的第i维取值为文档特征词汇集的第i个词汇在该文档中的词频,文档的词汇特征表示向量F为T和C的加权和。
S6通过聚类算法得到经由所述特征表示向量表示的文档相似度,得到聚类结果。
在本实施例的具体实施方式中,聚类采用二分k均值算法,具体过程为:
挑选一个簇进行划分(初始时所有文档共同为一个簇)。所述簇挑选的条件是对其二分能够最大程度提升聚类效果。聚类效果用误差平方和(SSE)评估,SSE越小,聚类效果越好。任意簇i的SSE的计算方式如下:
其中F qj 为簇q中第j个文档的词汇特征表示向量,F qc 为簇q的质心向量。
基于k均值算法将所选簇进行二分。
重复执行以上步骤,直到产生满足聚合条件的簇,具体为分类数量不再有明显上升或者分类效果不再有明显提升。
S7评估所述聚类结果的准确率。
具体而言,对于聚类结果的评估通过以下表达式实现:
其中,N为开源安全情报文本集中的文档总数,C k 为聚类结果中的第k类,R m 为真实分类中的第m类。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种面向开源安全情报的文本聚类方法,其特征在于,包括:
S1经多源获取情报文本,建立开源安全情报文本集,所述开源安全情报文本集包括文本来源已有的格式化数据;
S2基于开源安全情报文本集中的特殊信息字段,得到安全情报领域词库,包括:
获取多源情报文本中的特殊信息字段,形成安全情报领域词库的基础集;
组合拼接所述基础集中长度小于第一长度的词汇,形成临时扩展集;
通过所述临时扩展集中的词汇和开源安全情报文本集之间的匹配,得到词汇的命中得分,并根据命中得分得到安全情报领域词库;
所述命中得分与开源安全情报文本集中的标题内容和正文内容相关联,所述命中得分表示为:
其中,S为命中得分,N表示开源安全情报文本集中的文本数量,α和β分别为标题命中权重和正文命中权重,t i 和c i 分别为在第i篇文本标题中和正文中的命中次数;
S3根据安全情报领域词库对开源安全情报文本集中文档进行分词,并得到非停用词,包括:
基于安全情报领域词库加入通用文本词库,通过词典匹配和隐马尔可夫模型进行分词;
S4计算所述非停用词在各个文档中的TF-IDF值,根据所述TF-IDF值形成文档特征词汇集,所述文档特征词汇集由所述TF-IDF值所对应的非停用词形成;
S5获取文档特征词汇集中词汇的特征表示向量,包括:
所述文档的标题使用维度为W的向量T表示,所述向量T的第i维取值为文档特征词汇集的第i个词汇在所述标题中的词频;
所述文档的文本使用维度为W的向量C表示,所述向量C的第i维取值为文档特征词汇集的第i个词汇在所述文本中的词频;
所述特征表示向量为所述向量T和所述向量C的加权和,其中W为所述文档特征词汇集的词汇量;
S6通过聚类算法得到经由所述特征表示向量表示的文档相似度,得到聚类结果。
2.根据权利要求1所述的一种面向开源安全情报的文本聚类方法,其特征在于,所述方法还包括评估所述聚类结果的准确率。
5.根据权利要求1所述的一种面向开源安全情报的文本聚类方法,其特征在于,当所述命中得分大于第一预设阈值时,将其所对应的词汇纳入至安全情报领域词库中。
6.根据权利要求1所述的一种面向开源安全情报的文本聚类方法,其特征在于,当所述TF-IDF值大于第二预设阈值时,其所对应的词汇与安全情报领域词库组合形成文档特征词汇集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712713.1A CN115687960B (zh) | 2022-12-30 | 2022-12-30 | 一种面向开源安全情报的文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712713.1A CN115687960B (zh) | 2022-12-30 | 2022-12-30 | 一种面向开源安全情报的文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115687960A CN115687960A (zh) | 2023-02-03 |
CN115687960B true CN115687960B (zh) | 2023-07-11 |
Family
ID=85056413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211712713.1A Active CN115687960B (zh) | 2022-12-30 | 2022-12-30 | 一种面向开源安全情报的文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687960B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932526B (zh) * | 2023-09-19 | 2023-11-24 | 天泽智慧科技(成都)有限公司 | 一种面向开源情报的文本去重方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004465A1 (en) * | 2009-07-02 | 2011-01-06 | Battelle Memorial Institute | Computation and Analysis of Significant Themes |
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN105677873B (zh) * | 2016-01-11 | 2019-03-26 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
CN111581355B (zh) * | 2020-05-13 | 2023-07-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN114611491A (zh) * | 2022-03-14 | 2022-06-10 | 湖州师范学院 | 基于文本挖掘技术的智慧政务舆情分析研究方法 |
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
-
2022
- 2022-12-30 CN CN202211712713.1A patent/CN115687960B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115687960A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
US8341112B2 (en) | Annotation by search | |
US8156097B2 (en) | Two stage search | |
US20070203885A1 (en) | Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN109791632B (zh) | 场景片段分类器、场景分类器以及记录介质 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Asyaky et al. | Improving the performance of HDBSCAN on short text clustering by using word embedding and UMAP | |
Galal et al. | Classifying Arabic text using deep learning | |
CN115687960B (zh) | 一种面向开源安全情报的文本聚类方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Arif et al. | Sentiment analysis of roman urdu/hindi using supervised methods | |
Phadnis et al. | Framework for document retrieval using latent semantic indexing | |
Haribhakta et al. | Unsupervised topic detection model and its application in text categorization | |
Iacobelli et al. | Finding new information via robust entity detection | |
Rahimi et al. | Contextualized topic coherence metrics | |
Zhang et al. | Text information classification method based on secondly fuzzy clustering algorithm | |
Showrov et al. | Keyword extraction from bengali news | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN114443961A (zh) | 一种内容过滤科技成果推荐方法、模型及存储介质 | |
Fourati et al. | Automatic audiovisual documents genre description | |
Ramachandran et al. | Document Clustering Using Keyword Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |