CN111444704B - 基于深度神经网络的网络安全关键词抽取方法 - Google Patents

基于深度神经网络的网络安全关键词抽取方法 Download PDF

Info

Publication number
CN111444704B
CN111444704B CN202010229237.2A CN202010229237A CN111444704B CN 111444704 B CN111444704 B CN 111444704B CN 202010229237 A CN202010229237 A CN 202010229237A CN 111444704 B CN111444704 B CN 111444704B
Authority
CN
China
Prior art keywords
text
word
neural network
network security
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010229237.2A
Other languages
English (en)
Other versions
CN111444704A (zh
Inventor
宋虹
陈济民
林丹丹
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010229237.2A priority Critical patent/CN111444704B/zh
Publication of CN111444704A publication Critical patent/CN111444704A/zh
Application granted granted Critical
Publication of CN111444704B publication Critical patent/CN111444704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度神经网络的网络安全关键词抽取方法,包括采集网络安全文本数据集;构建深度神经网络并对网络安全文本数据集进行训练得到训练后的深度神经网络模型;采用训练后的深度神经网络模型对分词系统词库进行扩展;对分词之后的文本集合进行文本关键词的抽取并得到最终的网络安全关键词抽取结果。本发明提出了一种深度神经网络来改进文本分词的不足,并通过文本中每个词语的位置以及词性来提取文本的关键词集合;因此,本发明方法能够有效的提取网络安全文本中的关键词集合,具有较高的准确率,而且可靠性高,实用性好。

Description

基于深度神经网络的网络安全关键词抽取方法
技术领域
本发明属于信息技术领域,具体涉及一种基于深度神经网络的网络安全关键词抽取方法。
背景技术
随着经济技术的发展和人们生活水平的提高,信息安全已经成为了人们生产和生活中越来越关注的问题。
然而,近年来,我国的互联网技术发展十分迅猛,人们对网络信息时代的依赖性增强,各种各样的网络攻击也不断增多,这些网络攻击已经严重影响到了我们的日常生活。网络安全热点事件挖掘已经成为了当前网络安全行业的关注重点,多个发达国家已经成立了专门的网络安全组织对网络安全热点事件挖掘与舆情监控。网络安全关键词抽取从网络安全文本集合中抽取能够概括网络安全事件信息以及重要性的词语或者是短语,是网络安全热点事件挖掘与深度分析的重要基础部分。
关键词抽取主要包含三个步骤:文本分词、去停用词、关键词评分。目前的中文文本分词主要利用文本分词工具来实现,主流的有结巴分词、snowNLP分词等,该分词工具的原理是利用分词系统中的分词词库以及字符匹配的方法来对文本自动化分词。由于网络安全领域的特异性、多元性导致大部分网络安全词汇没有出现在分词工具的词库中。去停用词即去除文本中对文本主旨没有意义的词语,这些词往往是介词、连词、副词等没有实际意义的词。关键词评分通常根据词语在文本中的特征作为评价指标,词语的特征评价有以下几类:基于词语权重统计的、基于词语主题信息分布的、基于词语之前语法关系的特征评价。
目前的关键词抽取技术在网络安全文本中主要存在这些不足:当前分词系统对与网络安全领域词汇分词效果不高,需要对分词系统进行改进。并且关键词的评分技术对于网络安全文本中的词汇提取效果不高,无法展示网络安全文本的关键主旨。
发明内容
本发明的目的在于提供一种可靠性高、实用性好且准确率较高的基于深度神经网络的网络安全关键词抽取方法。
本发明提供的这种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;
S2.构建深度神经网络;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。
步骤S1所述的采集网络安全文本数据集,具体为采用爬虫技术采集网络安全文本数据集。
所述的采用爬虫技术采集网络安全文本数据集,具体为采用如下步骤获取网络安全文本数据集:
A.对安全文本数据集进行定义;
B.采用爬虫技术采集网络安全文本数据集;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集。
步骤S2所述的构建深度神经网络,具体为采用如下步骤构建深度神经网络:
a.采用此向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;
c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。
步骤c所述的对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别,具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。
步骤S3所述的采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,具体为采用如下步骤进行训练:
(1)对网络安全实体的类别进行定义;
(2)对网络安全命名实体的标注方式进行定义;
(3)对训练集进行标注;
(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习。
步骤S4所述的采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展,具体为采用如下步骤进行扩展:
1)将文本输入步骤S3得到的训练后的深度神经网络模型,从而得到文本中的实体类别标签分类;
2)根据步骤1)中的实体类别标签分类结果,对文本中的实体进行自动分类和组合,从而得到文本中所用的网络安全实体集合;
3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典,并通过结巴分词的分词函数对文本进行分词,从而得到最终的分词后的文本集合。
步骤S5所述的根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果,具体为采用如下步骤进行抽取:
Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tfij
式中tfij为第i篇文本的第j个词语频数表示;ni,j为第i篇文本的第j个词语在第i篇文本中出现的次数;nk,j为第i篇文本中的第k个词语出现的次数;k为第i篇文本中的第k个词语;
Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idfij
式中idfij为第i篇文本的第j个词语逆文档频率;wi,j为第i篇文本的第j个词语在第i篇文本中出现的次数;si,j为第i篇文本的第j个词语全文文本中出现的次数;
Ⅲ.采用如下算式计算每个词语的权重v:
式中v为词语的权重比值;α为词语在标题中的时候的权重比值,本文取1.3;β为词语属于网络安全实体时的权重取值,本文取1.5;
Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidfij
tfidfij=tfij*idfij*v
式中tfidfij为每个词语的权重;tfij为每个词语的TF频数;idfij为每个词语的IDF逆文档频率;v为词语的权重比值;
Ⅴ.根据步骤Ⅳ得到的权值,获取文本中每个词的权重排序,从而得到每篇文本中前若干个关键词集合。
本发明提供的这种基于深度神经网络的网络安全关键词抽取方法,提出了一种深度神经网络来改进文本分词的不足,并通过文本中每个词语的位置以及词性来提取文本的关键词集合;因此,本发明方法能够有效的提取网络安全文本中的关键词集合,具有较高的准确率,而且可靠性高,实用性好。
附图说明
图1为本发明方法的方法流程示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;具体为采用爬虫技术采集网络安全文本数据集;
在具体实施时,采用如下步骤获取网络安全文本数据集:
A.对安全文本数据集进行定义;
定义待收集的文本数据集集合表示形式为G={T,A,S},其中T表示文本的标题,A表示文本的正文,S表示文本的来源网址;同时定义三元组{G,data_method,S},表示从来源网址为S的网站通过data_method的数据采集方法得到数据集合G;
B.采用爬虫技术采集网络安全文本数据集;
收集国内各大安全媒体的安全资讯网址链接并定义为Link={Name,source},其中Name表示安全媒体的名称,source表示该网址的链接;使用Python编程语言的scrapy爬虫框架定位到每个网址source标题T,正文A所在的网页地址,使用json格式下载地址的相关内容,同时将T、A、Link和source作为4个字段在数据库中新建一个网络安全文本集合表,将所有的数据读存储到数据库中;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集;
通过爬虫下载的网页正文A通常都含有图片、链接、代码块等会干扰文本分析的数据,因此需要对安全文本的正文部分进行数据清理;从数据库中取得所有A的字段,并将A字段从json格式转换为字典格式dict_A,并且利用正则表达式去除掉正文中的图片、链接、代码块等不必要的数据;
S2.构建深度神经网络;具体为采用如下步骤构建深度神经网络:
a.采用此词向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
输入的原始文本的形式为汉字,无法被神经网络直接训练,因此需要转化为向量形式;文本词向量输入层是模型的最底层,输入为需要分词的文本,输出为由文本序列转化成的词向量序列,用于神经网络训练;采用谷歌发布的BERT(Bidirectional EncoderRepresentation from Transformers)词向量预训练模型作为文本的词向量输入;BERT词向量模型结合了文本中词语的语法以及语义信息,同时以字符作为最小单元进行训练,解决了网络安全领域文本的词汇向量表示问题,其中BERT的相关参数如下表所示:
表1BERT相关参数示意表
参数 大小
Hidden 768
Parameters 110M
Layer 12
Heads 12
b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;
本层接收文本词向量层的词向量输出,并采用合适的神经网络模型来提取文本特征;BiLSTM(Bi-directional Long Short-Term Memory)能更有效地利用文本序列的上下文信息,可以更好地提取文本特征;因此利用BiLSTM神经网络结构来整合两个方向的LSTM神经网络的输出,并将其拼接起来作为整体传入下一层;输入为文本的词向量表示,输出为每个字符在神经网络中各个标签类别的概率;
c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别;具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别;
在具体实施时,本层接收深度神经网络输出的每个字符的标签类别概率,并对其进行归一化处理,最终得到每个字符的标签类别;虽然BiLSTM学习到了上下文的信息,但是输出相互之间并没有影响,它只是在每一步挑选一个最大概率值的label输出;这样就会导致如B-PER后再接一个B-PER的问题;而标签分类层中有转移特征,即它会考虑输出标签之间的顺序性,因此需要将概率值输入到标签分类层来对每个字符的输出类别做规范,本方法的标签分类层选择CRF(conditional random field,条件随机场)来限制最终的模型预测结果;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;具体为采用如下步骤进行训练:
(1)对网络安全实体的类别进行定义;
定义网络安全实体集合L={PER、LOC、ORG、SW、RT},其中PER表示人名,LOC表示地点,ORG表示组织名,SW表示软件名,RT安全术语;
(2)对网络安全命名实体的标注方式进行定义;
采用BIO标注方式,B代表begin,表示实体的开始部分;I代表inside,表示实体的中间部分;O代表outside,表示不属于实体类型;
(3)对训练集进行标注;
通过命名实体识别工具StanfordNLP输入文本集合G,通过自动标注函数输出自动标注后的文本集合,然后人工对数据集补充和修正之后得到命名实体识别模型的训练数据集D{D1,D2,D3,D4…},D表示所有标注好的文本集合;
标注好的每个字符分别有B-PER、I-PER、B-LOC、I-LOC、B-SW、I-SW、B-ORG、I-ORG、B-RT、I-RT、O这些标注类型;
(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;具体为采用如下步骤进行扩展:
1)将文本输入步骤S3得到的训练后的深度神经网络模型,从而得到文本中的实体类别标签分类;
将文本输入深度神经网络训练好的中的深度神经网络模型bert_model,定义自定义词典dict_safe={PER,LOC,ORG,SW,RT},其中PER表示通过命名实体识别模型识别出来的人名集合,LOC表示通过模型识别出来的地点集合,ORG表示通过模型识别出来的组织集合,SW表示识别出来的软件名集合,RT表示识别出来的安全术语集合;
然后通过模型的识别函数识别文本的命名实体,该函数首先将输入的文本中的每一个字符通过词向量层获取该字符的向量表示wordi,获取到该字符的向量表示后将其输入到深度神经网络层,通过神经网络层获取到该字符的上下文语义,并且输出该字符的每个标签类别的输出概率P,该概率的表示如下所示:
P=P(P(B-PER),P(I-PER),...,P(O))
然后将输出的标签概率输入到标签分类层通过概率规范获取到每个单词最终的标签类别,最终输出文本的序列标注集合lable_sort={lable1,lable2,...,lablen},其中n表示该文本的字符数量,lablen表示在第n个字符的实体类别标注;
2)根据步骤1)中的实体类别标签分类结果,对文本中的实体进行自动分类和组合,从而得到文本中所用的网络安全实体集合;
通过上述步骤获得文本中每个字符的序列标注集合lable_sort,接下来根据每个字符的标签类别对具有先后顺序的相同类型标签进行组合,即如果第i个单词的标签为B-PER且i+1个单词的标签为I-PER,则将第i个单词和第i+1个单词合并起来,知道相邻下一个字符的标签不为I-PER,其他的标签类别也做同样的处理,最终得到文本中的所用网络安全实体集合safe_dict={PER,LOC,ORG,SW,RT},本方法通过选取2000篇网络安全文本并对其中的安全实体进行自动分类,其中人为找出的网络安全实体数为13567个,而通过本方法识别出来的安全实体数为11613个,识别准确率为85.6%,而通过传统的分词工具准确将网络安全实体分词的个数为4163个,识别的准确率仅为30.7%,大大提高了分词工具的安全实体识别率;
3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典,并通过结巴分词的分词函数对文本进行分词,从而得到最终的分词后的文本集合;
将步骤2)中的自定义词典dict_safe作为结巴分词的扩充词典,加入到结巴分词中,然后通过结巴分词的分词函数对文本进行分词,就是将文本中的词语与结巴分词的词库做字符匹配,以获取文本的分词集合S{word1,word2,word3…},最终得到分词后的文本集合DS{DS1,DS2,DS3…};
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果;具体为采用如下步骤进行抽取:
Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tfij
式中tfij为第i篇文本的第j个词语频数表示;ni,j为第i篇文本的第j个词语在第i篇文本中出现的次数;nk,j为第i篇文本中的第k个词语出现的次数;k为第i篇文本中的第k个词语;
Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idfij
式中idfij为第i篇文本的第j个词语逆文档频率;wi,j为第i篇文本的第j个词语在第i篇文本中出现的次数;si,j为第i篇文本的第j个词语全文文本中出现的次数;
Ⅲ.采用如下算式计算每个词语的权重v:
式中v为词语的权重比值;α为词语在标题中的时候的权重比值,本文取1.3;β为词语属于网络安全实体时的权重取值,本文取1.5;
Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidfij
tfidfij=tfij*idfij*v
式中tfidfij为每个词语的权重;tfij为每个词语的TF频数;idfij为每个词语的IDF逆文档频率;v为词语的权重比值;
Ⅴ.根据步骤Ⅳ得到的权值,获取文本中每个词的权重排序,从而得到每篇文本中前若干个关键词集合。
以下结合具体实施例,对本发明方法进行进一步说明:
实例1:
本实验取网络安全文本共2000篇,人工分词数为134682词,其中人为识别实体总数为13567。定义分词准确率以及实体识别准确率公式如下:
表2分词方法的准确率比较
由表2可知:在未结合深度神经网络学习之前分词系统对网络安全实体的识别率只有30%左右,原因是在分词系统的词库中没有相应的网络安全实体这些词汇,导致无法识别出来,而加入深度学习神经网络训练后,分词系统对网络安全实体的识别率达到了85.6%,并且分词系统在网络安全文本的准确率也提升了了5%,由此可以看出深度神经网络的训练提升了分词系统在网络安全词汇的识别效果。
实例2:
本实例说明上述方法在实际网络安全文本关键词抽取应用中的准确性。从国内各大安全媒体收集每日安全资讯文本共2000篇,以安全资讯中的关键词提示以及人工抽取的方法抽取7个关键词作为关键词标准,关键词抽取的方式采用公平并且能代表全文主旨的思想进行。方法1为传统关键词抽取方法TF-IDF,实验2为TextRank抽取算法,实验3为结合word2vec与TextRank的关键词抽取算法,实验4为基于注意力机制的关键词抽取算法,实验5为本文的抽取方法。评估指标如下:
测试结果如下表3所示:
表3不同关键词抽取的准确率比较
实验方法 Pecision Recall F1
1 0.548 0.548 0.548
2 0.491 0.512 0.461
3 0.587 0.598 0.521
4 0.629 0.669 0.649
5 0.684 0.702 0.693
通过表3可以发现,本文提出的方法在准确率pecision上比目前主流的基于注意力机制的关键词抽取方法提升了6%,Recall提升了4%,F1值提升了5%,原因是基于神经网络的关键词抽取方法不仅提升了分词系统对网络安全实体的识别率,而且充分考虑了文本中词语的位置特征与词性特征。在网络安全领域文本处理中,本文提出的方法更适用于网络安全文本的关键词抽取。

Claims (1)

1.一种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;具体为采用爬虫技术采集网络安全文本数据集,具体包括如下步骤:
A.对安全文本数据集进行定义;
B.采用爬虫技术采集网络安全文本数据集;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集;
S2.构建深度神经网络;具体为采用如下步骤构建深度神经网络:
a.采用此词向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;
c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别;具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;具体为采用如下步骤进行训练:
(1)对网络安全实体的类别进行定义;
(2)对网络安全命名实体的标注方式进行定义;
(3)对训练集进行标注;
(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;具体为采用如下步骤进行扩展:
1)将文本输入步骤S3得到的训练后的深度神经网络模型,从而得到文本中的实体类别标签分类;
2)根据步骤1)中的实体类别标签分类结果,对文本中的实体进行自动分类和组合,从而得到文本中所用的网络安全实体集合;
3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典,并通过结巴分词的分词函数对文本进行分词,从而得到最终的分词后的文本集合;
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果;具体为采用如下步骤进行抽取:
Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tfij
式中tfij为第i篇文本的第j个词语频数表示;ni,j为第i篇文本的第j个词语在第i篇文本中出现的次数;nk,j为第i篇文本中的第k个词语出现的次数;k为第i篇文本中的第k个词语;
Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idfij
式中idfij为第i篇文本的第j个词语逆文档频率;wi,j为第i篇文本的第j个词语在第i篇文本中出现的次数;si,j为第i篇文本的第j个词语全文文本中出现的次数;
Ⅲ.采用如下算式计算每个词语的权重v:
式中v为词语的权重比值;α为词语在标题中的时候的权重比值,本文取1.3;β为词语属于网络安全实体时的权重取值,本文取1.5;
Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidfij
tfidfij=tfij*idfij*v
式中tfidfij为每个词语的权重;tfij为每个词语的TF频数;idfij为每个词语的IDF逆文档频率;v为词语的权重比值;
Ⅴ.根据步骤Ⅳ得到的权值,获取文本中每个词的权重排序,从而得到每篇文本中前若干个关键词集合。
CN202010229237.2A 2020-03-27 2020-03-27 基于深度神经网络的网络安全关键词抽取方法 Active CN111444704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010229237.2A CN111444704B (zh) 2020-03-27 2020-03-27 基于深度神经网络的网络安全关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010229237.2A CN111444704B (zh) 2020-03-27 2020-03-27 基于深度神经网络的网络安全关键词抽取方法

Publications (2)

Publication Number Publication Date
CN111444704A CN111444704A (zh) 2020-07-24
CN111444704B true CN111444704B (zh) 2023-09-19

Family

ID=71653959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010229237.2A Active CN111444704B (zh) 2020-03-27 2020-03-27 基于深度神经网络的网络安全关键词抽取方法

Country Status (1)

Country Link
CN (1) CN111444704B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464654B (zh) * 2020-11-27 2022-06-17 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109977206A (zh) * 2019-03-20 2019-07-05 西北大学 一种基于多特征因素相融合的短文本特征提取方法
CN110110095A (zh) * 2019-04-29 2019-08-09 国网上海市电力公司 一种基于长短期记忆循环神经网络的电力指令文本匹配方法
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110321394A (zh) * 2019-07-09 2019-10-11 中国电子科技集团公司第二十八研究所 基于知识图谱的网络安全数据组织方法及计算机存储介质
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109977206A (zh) * 2019-03-20 2019-07-05 西北大学 一种基于多特征因素相融合的短文本特征提取方法
CN110110095A (zh) * 2019-04-29 2019-08-09 国网上海市电力公司 一种基于长短期记忆循环神经网络的电力指令文本匹配方法
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110321394A (zh) * 2019-07-09 2019-10-11 中国电子科技集团公司第二十八研究所 基于知识图谱的网络安全数据组织方法及计算机存储介质
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究;马建霞等;《数据分析与知识发现》;第78-88页 *
基于BiLSTM-CRF的涉恐信息实体识别模型研究;黄炜等;《情报杂志》(第12期);第149-156页 正文3.1节,表2-3 *
基于Bi-LSTM和TFIDF的工单事件提取;范华等;《电脑知识与技术》(第04期);第291-293页 正文第1-3节,图1 *
基于多特征的中文关键词抽取方法;黄轩;李伟;;计算机与现代化(第04期);全文 *
基于改进TF-IDF算法的文本分类方法研究;贺科达等;《广东工业大学学报》(第05期);第49-53页 *
基于深度学习和CRFs的产品评论观点抽取方法;睢国钦等;《情报杂志》(第05期);第177-185页 *
基于特征提取的恶意软件行为及能力分析方法研究;冯胥睿瑞等;《信息网络安全》(第12期);第72-78页 *
张绍麒.辞书与数字化研究.上海辞书出版社,2005,(第ISBN:978-7-5326-1746-3版),第56-57页. *
文本分类中TF-IDF权重计算方法改进;隗中杰;软件导刊;第17卷(第12期);全文 *

Also Published As

Publication number Publication date
CN111444704A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110298033B (zh) 关键词语料标注训练提取系统
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN111639183B (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN111061882A (zh) 一种知识图谱构建方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN116775874B (zh) 一种基于多重语义信息的资讯智能分类方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN115544255A (zh) 微博数据正负面识别方法
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant