CN111538893B - 一种从非结构化数据中提取网络安全新词的方法 - Google Patents
一种从非结构化数据中提取网络安全新词的方法 Download PDFInfo
- Publication number
- CN111538893B CN111538893B CN202010353099.9A CN202010353099A CN111538893B CN 111538893 B CN111538893 B CN 111538893B CN 202010353099 A CN202010353099 A CN 202010353099A CN 111538893 B CN111538893 B CN 111538893B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- vocabulary
- new
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
地下黑客社区作为黑客的在线社交平台,是黑客们进行交流和传播黑客技术和工具的重要场所。在这些社区中,许多最新的信息直接或间接影响网络攻击,从而威胁到企业或个人的资产。因此,诸如黑客论坛之类的社交媒体对网络安全领域具有重大影响。而从黑客社区(例如新兴的黑客团体和黑客工具)自动识别相关词和新词的成功率较低。本发明基于自然语言处理技术,通过对词汇本身的特征提取以及上下文进行分析,提出了一种从非结构化数据中提取网络安全新词的方法。该方法结合词性、单词特征、字符特征以及词汇相似度,利用卷积神经网络提取单词中的字符特征,使用双向长短期记忆神经网络构成框架,并结合词库和谷歌趋势综合判断以提取新词。
Description
技术领域
本发明涉及网络信息安全、大数据技术等领域,针对网络安全领域的新词提取方法,提出了一种基于深度学习的从非结构化数据中提取网络安全新词提取的方法。通过一维卷积神经网络的到词汇的字符特征,并对语句中的每一个词汇的词性特征、词向量、词汇特征、字符特征进行拼接,然后利用双向长短期记忆神经网络进行模型的构建,实现对黑客工具、组织名、用户名的检测。并将检测出的相关词汇与词库中的词汇进行比较,同时结合谷歌趋势进行判断,最终判断并提取出网络安全新词。
背景技术
随着互联网的飞速发展,网络安全形势日益复杂。作为网络攻击的参与者,黑客在网络安全中扮演着重要角色。作为黑客交流,传播黑客知识和交换工具的平台之一,黑客社区是网络罪犯传播恶意软件变种和黑客工具的市场。通常,在网络攻击发生之前,黑客组织很可能会在黑客社区中提出有关攻击的信息,并且通常会涉及相关的黑客工具,并且在黑客社区的相关文章中都会对工具进行描述。因此,攻击的踪迹或意图通常会出现在某些黑客沈河区中。及时发现工具、组织、用户名等新词,可以及时预警网络攻击。
地下黑客论坛中的数据对威胁情报、社交网络的分析以及黑话的检测都有着重要的意义。网络安全新词的出现是频繁的,而人工审查非常耗时耗力,并且漏报率较高,通常在这类词汇被人们广泛使用时才被大多数人所了解,目前从黑客社区的非结构化数据中自动识别相关词汇和新词的成功率较低,需要不断地实时监控相关平台中的内容。
目前,机器学习、自然语言处理等技术已经广泛应用于网络安全领域。通常对于新词的发现都会结合词频进行判断,然而在词汇刚出现、词频较低时却无法进行检测,从而信息的延迟为网络攻击的预警产生了一定的困难。利用词汇本身的特征以及所处上下文环境,并利用深度学习的方法可以检测出需要识别的某一类词汇,并且结合谷歌趋势进行综合判断,最终判断出新词。
本文基于上述思路,提出了一种从非结构化数据中提取网络安全新词的方法,以从文本内容中及时提取出相关网络安全新词。
发明内容
为了及时从非结构化文本内容中提取出网络安全新词,本发明提出了一种利用自然语言处理技术从非结构化数据中提取出网络安全新词的方法。其中首先需要构建黑客组织、用户名以及黑客工具的词库,这些数据来自于提供黑客工具的网站以及黑客论坛。从词汇、字符特征、词特征、词性四个维度对词汇进行表示并进行拼接,得到非结构化文本中词表示的向量。然后利用构造的特征向量根据建立好的模型进行序列标注,进而识别相关词汇,并综合利用谷歌趋势判断新词。该方法主要包括了数据收集模块、数据处理模块、模型构建模块和新词判决模块。
数据收集模块:收集地下黑客社区中的非结构化文本数据以及黑客组织名、用户名、工具名,作为原始语料库以及词库,得到训练数据。
数据处理模块:将上述模块中的文本数据进行处理,去除非ASCII字符,进行词形还原。然后对非结构化文本中的句子进行分词,利用Glove词向量得到每一个词的词向量,利用StanFordNLP得到每一个词的词性向量,利用一维卷积神经网络得到每一个词的字符特征向量,构建词汇信息特征表,并且表示每一个词的词特征向量。拼接上述四种向量,构建特征向量。
模型构建模块:该模块包含两个模型构建的过程。对于上一模块总的字符特征向量的获取使用一维卷积神经网络获取输出向量,利用常用于进行序列标注的长短期记忆神经网络来构建模型,输入在上一模块中构建的特征向量,判断非结构化文本中的网络安全领域命名实体。
新词判决模块:该模块主要用于判定所识别出的实体名称是不是新词。将上一模块识别出的实体在词库中进行比较,如果该词在词库中存在则为该种类型的词但不是新词,如果在词库中不存在,且在词库建立所处时间之前在谷歌趋势中没有足够的数据或者数据平缓但在之后有显著峰值则可判定为新词。
本发明与已有的新词发现的研究不同,本发明首先通过深度学习的方式判定某一词汇属于该领域,然后利用谷歌趋势进行综合判断是否是新词,而不是在新词词频大增,已被广泛使用后才发现。
附图说明
图1为本发明的框架示意图。
图2为本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。
图3为本发明的数据处理模块中词汇信息特征表。
图4为本发明的用于序列标注的模型构建示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步地详细说明,但本发明的实施方式不限于此。本发明是一种从非结构化数据提取网络安全新词的方法由数据处理模块、模型构建模块和新词判定模块组成。图1是本发明的框架示意图。图2是本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。图3是本发明的数据处理模块中词汇信息特征表。图4是本发明的用于序列标注的模型构建示意图。
数据收集模块:由于构建深度学习模型需要一定量的学习数据集,因此在初始阶段采集黑客社区中的文本内容、用户名,黑客工具提供网站所提供的工具,再在文本内容中手工标注黑客组织名、用户名、以及黑客工具名称,从而形成黑客用户名/组织名以及黑客工具名称的词库,该词库的建立是基于一定的时间。
数据处理模块:该模块主要分为原始非结构化数据处理和特征建立两个部分。原始数据处理是将收集到的黑客社区的语料库去除非ASCII字符但是不对单词进行小写化的操作,对句子进行编码得到一个单词序列,对序列中的每一个词利用NLTK进行词形还原,从而避免时态或者词汇的单复数形式的影响。特征建立分为词向量、词性向量、词特征向量以及字符特征向量的建立。对于词向量的表示,使用Glove 100维的词向量,此时需要将每个单词的所有字母都转化为小写形式再用该词向量进行表示,对于一些不规则的词汇无法查找到,则使用`UNKNOWN`进行表示。对于词性向量的表示,利用StanfordNLP得到句子中每一个词的词性,StanfordNLP对于词性的表示共有36中,利用one-hot编码表示每一个词的词性向量。在表示词向量的时候,所有字符都进行了小写化的表示,为了对每一个词的特征进行表示,构造了如图3所示的词特征的表示表,同样利用one-hot编码对每一个词的词特征进行向量表示。对于字符特征,利用一维卷积神经网络进行字符特征的提取,使用最大池化的方法,最终得到25维的字符特征向量。
模型构建模块:拼接通过预处理后得到的4种类型的特征向量,利用神经网络嵌入的方式,将拼接后的特征向量作为双向长短期记忆神经网络(BiLSTM)来构建模型,通过输出的每种类别的分数来判定属于哪一类。一旦检测到该词汇属于网络安全领域,就对其进行判定,判断其是否是新词。
新词判定模块:当该词汇被检测到属于网络安全领域(为工具或黑客用户名或黑客组织)时,先将词汇与词库中的词汇进行比较,如果该词汇存在于词库中,那么该词属于该领域但不是新词。如果该词不在词库中,就利用谷歌趋势获取该词汇的搜索热度,如果在词库建立时间之前该词在谷歌趋势中的数据较为平缓且在该时间之后有明显的增涨趋势,或在该时间之前该词在谷歌趋势中没有足够的数据,则将该词判定为新词并将其收录进词库,最终实现新词的判定。
Claims (4)
1.一种从非结构化数据中提取网络安全新词的方法,其特征包括以下步骤:
A.结合网络静态和动态爬虫技术,提取网络安全社区中用户发言文本内容、用户基本信息以及留言内容,作为词汇原始数据仓库,并利用手工方式,对词汇原始数据仓库中相关语句进行标注,标注时不改变语句中出现的网络安全词汇的形式,并收集这些词汇形成基准网络安全词库;
B.对原始数据仓库进行数据处理,对其所包含的所有文本句子进行切词、清洗;
C.定义特征向量类型及生成方法,提取词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量,具体的特征向量生成方法如下,
词汇固定长度词向量生成方法:基于全局语料库、结合上下文语境构建词向量,与此同时考虑词的共现情况,即单词与其上下文单词在特定的上下文窗口内共同出现的次数,根据与某一个单词的相关的概率之比学习词向量,实现将词汇转化为固定的长度向量,其中计算与某一个单词相关的概率之比的公式为:所述Pik表示词i的上下文中词k出现的概率,所述P(i|k)为Pik的计算公式;所述Pjk表示词j的上下文中词k出现的概率,所述P(j|k)为Pjk的计算公式;
词性向量生成方法:对每一个句子处理的结果,利用自然语言处理NTLK库对每个词的词性进行标注,利用独热编码进行向量化;
词汇静态特征向量生成方法:对每一个句子的处理结果,提取每一个词汇的静态特征,所述静态特征包括对特殊字符、字母数字的统计特征,对词汇的静态特征进行编码,利用独热编码进行向量化;
字符特征向量生成方法:对每一个句子的处理结果,对每一个词汇利用一维卷积神经网络算法提取字符特征,以n为输入的最长字符数,不足n字符的输入数据用0补齐,超过n个字符的输入数据只保留前n字节,输出为每一个词汇的字符特征向量;
D.将步骤C中所得到的词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量拼接获得合成向量,并将合成向量输入到双向长短期记忆神经网络,从而构建模型;
E.定义网络安全新词识别方法,结合基准网络安全词库、步骤D生成的模型以及阈值,判断输入的词汇是否属于网络安全新词。
2.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其对原始数据仓库处理的特征在于:对原始数据仓库中所有文本句子进行切词,移除非ASCII字符,但是在移除符号时不删除特殊字符,特殊字符指除英文字母和阿拉伯数字以外的字符,并对句子中的每一个词汇进行词形还原操作。
3.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其模型建立的具体步骤在于:
(1)将每一个词汇固定长度的词向量X1、词汇静态特征向量X2、词性向量X3、字符特征向量X4进行特征融合,得到合成向量;
(2)其中,所述特征融合的公式为W=X1||X2||X3||X4,其中||为拼接符号;
(3)利用双向长短期记忆神经网络构建模型,输入是通过预处理后的合成向量。
4.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其特征在于:网络安全新词与一般新词有差别,它们没有明显的统计学特征,网络安全领域新词的判定依赖于语义、已有词库及词汇的流行度,新词判定的具体步骤包括:
(1)利用训练完成的深度学习模型,判断新的文本输入内容中的黑客用户/组织及黑客工具两种类型的词汇,若属于这两类则将词汇作为候选词,并交给新词判决器进行判断,若不属于则丢弃所述词汇;
(2)将模型判断的网络安全词汇与基准网络安全词库中的词汇进行比较,判断所述网络词汇是否在词库中;
(3)当候选词在词库中时,则为网络安全相关词汇,但不是新词;
(4)当候选词不在词库中时,计算该词出现的次数占同一讨论话题帖子下的总词数的比例,判断所述词汇的出现频率与预定阈值之间的大小关系;其中,所述频率计算公式如下 其中N(w)表示词汇的出现次数,N(a)表示文本域的总词数;
(5)当所述词汇的频率大于预定阈值时,利用谷歌趋势平台搜索该词的流行度,若该候选词在谷歌趋势中从词库建立所处时间前至今趋势一直比较稳定,则不可判断为新词;若该候选词在谷歌趋势中在已有词库的年限之前的趋势较为平缓并且在已有词库的年限之后具有大幅度的上升趋势或在谷歌趋势中没有足够的数据,可判断为新词;
(6)当所述词汇的频率低于预定阈值时,则不可判断为新词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353099.9A CN111538893B (zh) | 2020-04-29 | 2020-04-29 | 一种从非结构化数据中提取网络安全新词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353099.9A CN111538893B (zh) | 2020-04-29 | 2020-04-29 | 一种从非结构化数据中提取网络安全新词的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538893A CN111538893A (zh) | 2020-08-14 |
CN111538893B true CN111538893B (zh) | 2021-01-05 |
Family
ID=71975815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010353099.9A Active CN111538893B (zh) | 2020-04-29 | 2020-04-29 | 一种从非结构化数据中提取网络安全新词的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538893B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148956A (zh) * | 2020-09-30 | 2020-12-29 | 上海交通大学 | 一种基于机器学习的暗网威胁情报挖掘系统和方法 |
CN117951246B (zh) * | 2024-03-26 | 2024-05-28 | 中国电子科技集团公司第三十研究所 | 一种网络技术新词发现及应用领域预测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090035944A (ko) * | 2007-10-08 | 2009-04-13 | 삼성전자주식회사 | 음성 인식 방법 및 그 장치 |
CN103150381A (zh) * | 2013-03-14 | 2013-06-12 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109766424A (zh) * | 2018-12-29 | 2019-05-17 | 安徽省泰岳祥升软件有限公司 | 一种阅读理解模型训练数据的过滤方法及装置 |
CN110569377A (zh) * | 2019-09-11 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661462B (zh) * | 2009-07-17 | 2012-12-12 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN103593615B (zh) * | 2013-11-29 | 2016-08-31 | 北京奇虎科技有限公司 | 一种网页篡改的检测方法及装置 |
CN105488033B (zh) * | 2016-01-26 | 2018-01-02 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN107908618A (zh) * | 2017-11-01 | 2018-04-13 | 中国银行股份有限公司 | 一种热点词发现方法和装置 |
CN108563667A (zh) * | 2018-01-05 | 2018-09-21 | 武汉虹旭信息技术有限责任公司 | 基于新词识别的热门话题采集系统及其方法 |
-
2020
- 2020-04-29 CN CN202010353099.9A patent/CN111538893B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090035944A (ko) * | 2007-10-08 | 2009-04-13 | 삼성전자주식회사 | 음성 인식 방법 및 그 장치 |
CN103150381A (zh) * | 2013-03-14 | 2013-06-12 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109766424A (zh) * | 2018-12-29 | 2019-05-17 | 安徽省泰岳祥升软件有限公司 | 一种阅读理解模型训练数据的过滤方法及装置 |
CN110569377A (zh) * | 2019-09-11 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111538893A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
Tran et al. | JAIST: Combining multiple features for answer selection in community question answering | |
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
CN111950273B (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112989831B (zh) | 一种应用在网络安全领域的实体抽取方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111538893B (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN112580331A (zh) | 政策文本的知识图谱构建方法及系统 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN116049419A (zh) | 融合多模型的威胁情报信息抽取方法及系统 | |
CN110019674A (zh) | 一种文本抄袭检测方法及系统 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
Abeje et al. | Comparative analysis of deep learning models for aspect level amharic news sentiment analysis | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及系统 | |
CN115759081A (zh) | 一种基于短语相似度的攻击模式抽取方法 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
Shil et al. | An approach for detecting Bangla spam comments on Facebook | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN112507115A (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 | |
Hünemörder et al. | SePass: Semantic Password Guessing Using k-nn Similarity Search in Word Embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |