CN111538893A - 一种从非结构化数据中提取网络安全新词的方法 - Google Patents

一种从非结构化数据中提取网络安全新词的方法 Download PDF

Info

Publication number
CN111538893A
CN111538893A CN202010353099.9A CN202010353099A CN111538893A CN 111538893 A CN111538893 A CN 111538893A CN 202010353099 A CN202010353099 A CN 202010353099A CN 111538893 A CN111538893 A CN 111538893A
Authority
CN
China
Prior art keywords
word
vocabulary
words
new
hacker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010353099.9A
Other languages
English (en)
Other versions
CN111538893B (zh
Inventor
黄诚
李滢
程嘉兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010353099.9A priority Critical patent/CN111538893B/zh
Publication of CN111538893A publication Critical patent/CN111538893A/zh
Application granted granted Critical
Publication of CN111538893B publication Critical patent/CN111538893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

地下黑客社区作为黑客的在线社交平台,是黑客们进行交流和传播黑客技术和工具的重要场所。在这些社区中,许多最新的信息直接或间接影响网络攻击,从而威胁到企业或个人的资产。因此,诸如黑客论坛之类的社交媒体对网络安全领域具有重大影响。而从黑客社区(例如新兴的黑客团体和黑客工具)自动识别相关词和新词的成功率较低。本发明基于自然语言处理技术,通过对词汇本身的特征提取以及上下文进行分析,提出了一种从非结构化数据中提取网络安全新词的方法。该方法结合词性、单词特征、字符特征以及词汇相似度,利用卷积神经网络提取单词中的字符特征,使用双向长短期记忆神经网络构成框架,并结合词库和谷歌趋势综合判断以提取新词。

Description

一种从非结构化数据中提取网络安全新词的方法
技术领域
本发明涉及网络信息安全、大数据技术等领域,针对网络安全领域的新词提取方法,提出了一种基于深度学习的从非结构化数据中提取网络安全新词提取的方法。通过一维卷积神经网络的到词汇的字符特征,并对语句中的每一个词汇的词性特征、词向量、词汇特征、字符特征进行拼接,然后利用双向长短期记忆神经网络进行模型的构建,实现对黑客工具、组织名、用户名的检测。并将检测出的相关词汇与词库中的词汇进行比较,同时结合谷歌趋势进行判断,最终判断并提取出网络安全新词。
背景技术
随着互联网的飞速发展,网络安全形势日益复杂。 作为网络攻击的参与者,黑客在网络安全中扮演着重要角色。 作为黑客交流,传播黑客知识和交换工具的平台之一,黑客社区是网络罪犯传播恶意软件变种和黑客工具的市场。通常,在网络攻击发生之前,黑客组织很可能会在黑客社区中提出有关攻击的信息,并且通常会涉及相关的黑客工具,并且在黑客社区的相关文章中都会对工具进行描述。因此,攻击的踪迹或意图通常会出现在某些黑客沈河区中。及时发现工具、组织、用户名等新词,可以及时预警网络攻击。
地下黑客论坛中的数据对威胁情报、社交网络的分析以及黑话的检测都有着重要的意义。网络安全新词的出现是频繁的,而人工审查非常耗时耗力,并且漏报率较高,通常在这类词汇被人们广泛使用时才被大多数人所了解,目前从黑客社区的非结构化数据中自动识别相关词汇和新词的成功率较低,需要不断地实时监控相关平台中的内容。
目前,机器学习、自然语言处理等技术已经广泛应用于网络安全领域。通常对于新词的发现都会结合词频进行判断,然而在词汇刚出现、词频较低时却无法进行检测,从而信息的延迟为网络攻击的预警产生了一定的困难。利用词汇本身的特征以及所处上下文环境,并利用深度学习的方法可以检测出需要识别的某一类词汇,并且结合谷歌趋势进行综合判断,最终判断出新词。
本文基于上述思路,提出了一种从非结构化数据中提取网络安全新词的方法,以从文本内容中及时提取出相关网络安全新词。
发明内容
为了及时从非结构化文本内容中提取出网络安全新词,本发明提出了一种利用自然语言处理技术从非结构化数据中提取出网络安全新词的方法。其中首先需要构建黑客组织、用户名以及黑客工具的词库,这些数据来自于提供黑客工具的网站以及黑客论坛。从词汇、字符特征、词特征、词性四个维度对词汇进行表示并进行拼接,得到非结构化文本中词表示的向量。然后利用构造的特征向量根据建立好的模型进行序列标注,进而识别相关词汇,并综合利用谷歌趋势判断新词。该方法主要包括了数据收集模块、数据处理模块、模型构建模块和新词判决模块。
数据收集模块:收集地下黑客社区中的非结构化文本数据以及黑客组织名、用户名、工具名,作为原始语料库以及词库,得到训练数据。
数据处理模块:将上述模块中的文本数据进行处理,去除非ASCII字符,进行词形还原。然后对非结构化文本中的句子进行分词,利用Glove词向量得到每一个词的词向量,利用StanFordNLP得到每一个词的词性向量,利用一维卷积神经网络得到每一个词的字符特征向量,构建词汇信息特征表,并且表示每一个词的词特征向量。拼接上述四种向量,构建特征向量。
模型构建模块:该模块包含两个模型构建的过程。对于上一模块总的字符特征向量的获取使用一维卷积神经网络获取输出向量,利用常用于进行序列标注的长短期记忆神经网络来构建模型,输入在上一模块中构建的特征向量,判断非结构化文本中的网络安全领域命名实体。
新词判决模块:该模块主要用于判定所识别出的实体名称是不是新词。将上一模块识别出的实体在词库中进行比较,如果该词在词库中存在则为该种类型的词但不是新词,如果在词库中不存在,且在词库建立所处时间之前在谷歌趋势中没有足够的数据或者数据平缓但在之后有显著峰值则可判定为新词。
本发明与已有的新词发现的研究不同,本发明首先通过深度学习的方式判定某一词汇属于该领域,然后利用谷歌趋势进行综合判断是否是新词,而不是在新词词频大增,已被广泛使用后才发现。
附图说明
图1为本发明的框架示意图。
图2为本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。
图3为本发明的数据处理模块中词汇信息特征表。
图4为本发明的用于序列标注的模型构建示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步地详细说明,但本发明的实施方式不限于此。本发明是一种从非结构化数据提取网络安全新词的方法由数据处理模块、模型构建模块和新词判定模块组成。图1是本发明的框架示意图。图2是本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。图3是本发明的数据处理模块中词汇信息特征表。图4是本发明的用于序列标注的模型构建示意图。
数据收集模块:由于构建深度学习模型需要一定量的学习数据集,因此在初始阶段采集黑客社区中的文本内容、用户名,黑客工具提供网站所提供的工具,再在文本内容中手工标注黑客组织名、用户名、以及黑客工具名称,从而形成黑客用户名/组织名以及黑客工具名称的词库,该词库的建立是基于一定的时间。
数据处理模块:该模块主要分为原始非结构化数据处理和特征建立两个部分。原始数据处理是将收集到的黑客社区的语料库去除非ASCII字符但是不对单词进行小写化的操作,对句子进行编码得到一个单词序列,对序列中的每一个词利用NLTK进行词形还原,从而避免时态或者词汇的单复数形式的影响。特征建立分为词向量、词性向量、词特征向量以及字符特征向量的建立。对于词向量的表示,使用Glove 100维的词向量,此时需要将每个单词的所有字母都转化为小写形式再用该词向量进行表示,对于一些不规则的词汇无法查找到,则使用`UNKNOWN`进行表示。对于词性向量的表示,利用StanfordNLP得到句子中每一个词的词性,StanfordNLP对于词性的表示共有36中,利用one-hot编码表示每一个词的词性向量。在表示词向量的时候,所有字符都进行了小写化的表示,为了对每一个词的特征进行表示,构造了如图3所示的词特征的表示表,同样利用one-hot编码对每一个词的词特征进行向量表示。对于字符特征,利用一维卷积神经网络进行字符特征的提取,使用最大池化的方法,最终得到25维的字符特征向量。
模型构建模块:拼接通过预处理后得到的4种类型的特征向量,利用神经网络嵌入的方式,将拼接后的特征向量作为双向长短期记忆神经网络(BiLSTM)来构建模型,通过输出的每种类别的分数来判定属于哪一类。一旦检测到该词汇属于网络安全领域,就对其进行判定,判断其是否是新词。
新词判定模块:当该词汇被检测到属于网络安全领域(为工具或黑客用户名或黑客组织)时,先将词汇与词库中的词汇进行比较,如果该词汇存在于词库中,那么该词属于该领域但不是新词。如果该词不在词库中,就利用谷歌趋势获取该词汇的搜索热度,如果在词库建立时间之前该词在谷歌趋势中的数据较为平缓且在该时间之后有明显的增涨趋势,或在该时间之前该词在谷歌趋势中没有足够的数据,则将该词判定为新词并将其收录进词库,最终实现新词的判定。

Claims (6)

1.一种从非结构化数据中提取网络安全新词的方法,其特征在于:包括了数据收集模块、数据处理模块、模型建立模块以及新词判定模块。
2.根据权利要求1所述的一种从非结构化中提取网络安全新词的方法,其数据收集的具体步骤在于:
(1) 利用网络静态和动态爬虫技术对特定网络安全论坛中网页进行全文抓取,然后利用正则表达式从网页中提取用户发言的文本内容、用户基本信息以及其他人的留言内容,并将这些数据作为原始数据仓库;
(2) 利用网络静态和动态爬虫技术从诸如PacketStorm、GitHub等安全社区或者论坛采集包含黑客组织和工具名称这两类网络安全词汇的数据,形成词汇原始数据仓库;
(3) 手动对词汇原始数据仓库中相关语句进行标注,主要标记数据中涉及到的网络安全词汇,在标注时不改变原词汇的形式,结合所收集到的名称形成基准网络安全词库。
3.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其数据处理的具体步骤在于:
(1) 对原始数据仓库进行预处理,其中包含对其所包含的所有文本句子进行切词,移除非ASCII字符,但是在移除符号时不删除引号、连字符、括号等特殊字符,并对句子中的每一个词汇进行词形还原操作;
(2) 词汇固定长度词向量生成方法:基于全局语料库、结合上下文语境构建词向量,与此同时考虑词的共现情况,即单词与其上下文单词在特定的上下文窗口内共同出现的次数,根据与某一个单词的相关的概率之比学习词向量,实现将词汇转化为固定的长度向量,其中计算与某一个单词相关的概率之比的公式为:
Figure 262722DEST_PATH_IMAGE001
所述
Figure 179863DEST_PATH_IMAGE002
表示词
Figure 959600DEST_PATH_IMAGE003
的上下文中词
Figure 354809DEST_PATH_IMAGE004
出现的概率;
(3) 词性向量生成方法:对每一个句子处理的结果,利用自然语言处理NTLK库对每个词的词性进行标注,利用独热编码进行向量化;
(4) 词汇静态特征向量生成方法:对每一个句子的处理结果,提取每一个词汇的静态特征,所述静态特征包括对特殊字符、字母数字的统计特征,对词汇的静态特征进行编码,利用独热编码进行向量化;
(5) 字符特征向量生成方法:对每一个句子的处理结果,对每一个词汇利用一维卷积神经网络算法提取字符特征,以n为输入的最长字符数,不足n字符的输入数据用0补齐,超过n个字符的输入数据只去前n字节,输出为每一个词汇的字符特征向量。
4.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其模型建立的具体步骤在于:
(1) 将每一个词汇固定长度的词向量
Figure 106864DEST_PATH_IMAGE005
、词汇静态特征向量
Figure 929327DEST_PATH_IMAGE006
、词性向量
Figure 196360DEST_PATH_IMAGE007
、字符特征向量
Figure 395260DEST_PATH_IMAGE008
进行特征融合,得到合成向量;
(2) 其中,所述特征融合的公式为
Figure 64139DEST_PATH_IMAGE009
(3) 利用双向长短期记忆神经网络构建模型,输入是通过预处理后的合成向量。
5.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其特征在于:网络安全新词与一般新词有所差别,它们通常没有明显的统计学特征,网络安全领域新词的判定依赖于语义、已有词库及词汇的流行度,新词判定的具体步骤包括:
(1) 利用训练完成的深度学习模型,判断新的文本输入内容中的黑客用户/组织及黑客工具两种类型的词汇,若属于这两类则将词汇交给新词判决器进行判断,若不属于则丢弃所述词汇;
(2) 将模型判断的网络安全词汇与基准网络安全词库中的词汇进行比较,判断所述网络词汇是否在词库中;
(3) 当所述词汇在词库中时,则不是新词如果该候选词在词库中,则为网络安全相关词汇,但不是新词;
(4) 当所述词汇不在词库中时,计算该词出现的次数占同一讨论话题帖子下的总词数的比例,判断所述词汇的出现频率是否大于预定阈值;其中,所述概率计算公式如下
Figure 57503DEST_PATH_IMAGE010
,其中
Figure 500248DEST_PATH_IMAGE011
表示词汇的出现次数,
Figure 237260DEST_PATH_IMAGE012
表示文本域的总词数。
6.根据权利要求5所述的方法,根据词汇出现的概率与阈值的比较判断新词的方法在于:
(1) 当所述词汇的频率大于预定阈值时,利用谷歌趋势平台搜索该词的流行度,若该候选词在谷歌趋势中从词库建立所处时间前至今趋势一直比较稳定,则不可判断为新词;若该候选词在谷歌趋势中在已有词库的年限之前的趋势较为平缓并且在已有词库的年限之后具有大幅度的上升趋势或在谷歌趋势中没有足够的数据,可判断为新词;
(2) 当所述词汇的频率低于预定阈值时,则不可判断为新词。
CN202010353099.9A 2020-04-29 2020-04-29 一种从非结构化数据中提取网络安全新词的方法 Active CN111538893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010353099.9A CN111538893B (zh) 2020-04-29 2020-04-29 一种从非结构化数据中提取网络安全新词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010353099.9A CN111538893B (zh) 2020-04-29 2020-04-29 一种从非结构化数据中提取网络安全新词的方法

Publications (2)

Publication Number Publication Date
CN111538893A true CN111538893A (zh) 2020-08-14
CN111538893B CN111538893B (zh) 2021-01-05

Family

ID=71975815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010353099.9A Active CN111538893B (zh) 2020-04-29 2020-04-29 一种从非结构化数据中提取网络安全新词的方法

Country Status (1)

Country Link
CN (1) CN111538893B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148956A (zh) * 2020-09-30 2020-12-29 上海交通大学 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN117951246A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种网络技术新词发现及应用领域预测方法和系统
CN117951246B (zh) * 2024-03-26 2024-05-28 中国电子科技集团公司第三十研究所 一种网络技术新词发现及应用领域预测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035944A (ko) * 2007-10-08 2009-04-13 삼성전자주식회사 음성 인식 방법 및 그 장치
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN107908618A (zh) * 2017-11-01 2018-04-13 中国银行股份有限公司 一种热点词发现方法和装置
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150381B (zh) * 2013-03-14 2016-03-02 北京理工大学 一种高精度汉语谓词识别方法
CN107133220B (zh) * 2017-06-07 2020-11-24 东南大学 一种地理学科领域命名实体识别方法
CN109766424B (zh) * 2018-12-29 2021-11-19 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN110569377B (zh) * 2019-09-11 2021-08-24 腾讯科技(深圳)有限公司 一种媒体文件的处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035944A (ko) * 2007-10-08 2009-04-13 삼성전자주식회사 음성 인식 방법 및 그 장치
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN107908618A (zh) * 2017-11-01 2018-04-13 中国银行股份有限公司 一种热点词发现方法和装置
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG Y等: "WOVSQLI: Detection of SQL injection behaviors using word vector and LSTM", 《PROCEEDINGS OF THE 2ND INTERNATIONAL CONFERENCE ON CRYPTOGRAPHY, SECURITY AND PRIVACY. ACM》 *
彭嘉毅等: "基于深度主动学习的信息安全领域命名实体识别研究", 《四川大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148956A (zh) * 2020-09-30 2020-12-29 上海交通大学 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN117951246A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种网络技术新词发现及应用领域预测方法和系统
CN117951246B (zh) * 2024-03-26 2024-05-28 中国电子科技集团公司第三十研究所 一种网络技术新词发现及应用领域预测方法和系统

Also Published As

Publication number Publication date
CN111538893B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
Opara et al. HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN112541476A (zh) 一种基于语义特征提取的恶意网页识别方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112464666A (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
CN112580331A (zh) 政策文本的知识图谱构建方法及系统
CN110019674A (zh) 一种文本抄袭检测方法及系统
CN113111645B (zh) 一种媒体文本相似性检测方法
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统
CN115759081A (zh) 一种基于短语相似度的攻击模式抽取方法
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN113886529A (zh) 一种面向网络安全领域的信息抽取方法及其系统
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Shil et al. An approach for detecting Bangla spam comments on Facebook

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant