CN110941716A - 一种基于深度学习的信息安全知识图谱的自动构建方法 - Google Patents

一种基于深度学习的信息安全知识图谱的自动构建方法 Download PDF

Info

Publication number
CN110941716A
CN110941716A CN201911069823.9A CN201911069823A CN110941716A CN 110941716 A CN110941716 A CN 110941716A CN 201911069823 A CN201911069823 A CN 201911069823A CN 110941716 A CN110941716 A CN 110941716A
Authority
CN
China
Prior art keywords
word
entity
lstm
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911069823.9A
Other languages
English (en)
Other versions
CN110941716B (zh
Inventor
李博
左光胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911069823.9A priority Critical patent/CN110941716B/zh
Publication of CN110941716A publication Critical patent/CN110941716A/zh
Application granted granted Critical
Publication of CN110941716B publication Critical patent/CN110941716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi‑LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。

Description

一种基于深度学习的信息安全知识图谱的自动构建方法
技术领域
本发明涉及一种图谱的自动构建方法,尤其涉及一种基于深度学习的信息安全知识图谱的自动构建方法。
背景技术
目前的信息安全知识库大多数采用人工维护和更新的方式进行维护,比较著名的比如CVE(公共漏洞知识库),但CVE的更新大多采用人工手动更新的方式,不能及时地更新一些新发现地漏洞和攻击知识,而这些知识往往都已经在第一时间发表在相关公司厂商或者安全团队的博客里,所以有必要采用一种自动更新的方式从文本中挖掘和提取知识。
除了公开的知识库之外,现有技术有一些研究比如Stucco,通过采用机器学习的方法从文本中提取三元组从而构建知识图谱,在实体识别过程中采用最大熵模型基于标注的预料进行训练从而从文本提取相关的实体,在提取实体之后,使用基于主动学习的半监督方法进行关系抽取,构建了一个信息安全的知识库。
然而目前现有技术中存在两个问题,第一,基于人工整理的方式,虽然具有较好的准确率,但是存在更新不及时的问题;第二,目前基于机器学习方法的研究,算法的效果不够好,尤其是在关系抽取阶段,介入了人工的辅助才能进行学习,构建过程仍然不是完全自动化。
发明内容
针对上述问题,本发明提出了一种基于深度学习的信息安全知识图谱的自动构建方法,通过建立模型自动识别信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。
一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,
步骤1,构建信息安全知识图谱的本体库;
步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;
步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。
进一步,所述本体库的包括实体的类型和实体的关系,所述实体类型共12种,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,恶意软件,防御工具,软件的更新,软件的版本,文件,代码块,硬件;所述关系共8种。
进一步,所述对本体库的数据集进行标注的具体方式为,首先根据本题库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注。
进一步,采用了Bi-LSTM来对句子进行编码的具体方式为首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码
Figure BDA0002260603950000021
Figure BDA0002260603950000022
两个向量分别表示该词的上文信息和下文信息。并且使用激活函数得到类别取值的概率分布的具体方式为
Figure BDA0002260603950000023
zi=wTHi+b
Fi=softmax(zi),
其中以上公式中的Hi对应于第i的词的向量表达,concat是一个连接操作,将两个向量拼接到一起,wT,b分别为权重和偏差,zi是经过一个全连接层对于每个词语的向量表示,Fi为最终每个词语的类别概率分布,表示该词语属于哪个类别,softmax是一个权重函数,输出每个类别的概率。
进一步,所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组字典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中。从而构造出一个用来做关系抽取的数据集。
进一步,所述建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:
ei=Wembeddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)]
SP=sum_pooling(eL1,eL2)
α=softmax(wT[SP,Hi,dot_product(SP,Hi)])
Hs=αH
其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量。上式为H为表示[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM。上式中ei为每个词对应的词向量,SP对应于实体词对的词向量和,dot_product表示两个向量的点积。
本发明能够自动地从文本中挖掘和提取有用地信息安全知识,从而整合成一个可供检索和使用的信息安全知识库。通过机器学习方法以有监督的方式训练模型,从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系,而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间,本发明自动获得一份较好的数据。
附图说明
图1为本发明的具体流程图;
图2为本发明的Bi-LSTM结构图;
图3为本发明的LSTM的关系分类模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在进行知识图谱构建之前,首先构建知识图谱存储知识的类型,以及知识之间的关系,本发明结合安全知识库的模式定义了一个全面的信息安全知识图谱的本体库。表1为实体类型表,表2为实体关系的定义表。
表1实体类型表
实体名称 描述
Software 软件,包括应用软件和系统软件
Vendor 软件供应商或者开发商
Vulnerability 漏洞
Vul_Type 漏洞类型
Attack 攻击或者漏洞利用
Malware 恶意软件
Defense_Tool 防御工具
Update 软件的更新或者补丁
Version 软件的版本
File 文件或者路径
Function 代码块或者API接口
Hardware 硬件,网络硬件或者信息存储、计算的硬件
表2实体关系表
Figure BDA0002260603950000041
Figure BDA0002260603950000051
表3为解释了关系(Rel)的含义表。
表3
关系(Rel) 对应的含义描述
AFFECT 影响或者造成威胁
DEFEND 防御或者修复之后从来避免
DEV 开发与维护
EXPLOIT 利用
IS_A 是或者属于的关系
PUBLISH 发布或者发行
RELATED 相关,具有某种联系
RUNON 运行在这之上
目前定义了12种实体类型,8种关系,其中RELATED关系是一种比较泛化或者模糊表达的关系,表示这两个之间有关系,例如某个漏洞可能有某个文件或者某个API或者函数块有关。
在获取到大量的非结构化数据和文本数据之后,为了能够自动地从文本中提取知识,需要通过机器学习方法以有监督的方式训练模型,从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。
而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间,本发明自动获得一份较好的数据。
首先根据本体库定义的实体类型,对每一种类型的实体收集尽可能多的词汇,相当于得到了一个实体词典,然后根据实体词典对文本句子进行标注,本发明BIO-tagging的格式进行标注,例如B-Vendor表示Vendor类型实体词的开始部分,I-Vendor表示Vendor类型实体词的中间和结尾部分,0表示其他词汇,即不属于任何实体类型或者实体词。
实体词典的来源主要是解析自CVE中的相关字段,比如上文提到的affected-vendor,affected-software,可以直接作为vendor和software的词典来源。CVE数据是指前文提到的公共漏洞库,里面每一个目录对应于一个漏洞的详细信息,比如这个漏洞所影响到的软件,软件厂商,以及漏洞的评级,还有漏洞的描述文本,CVE数据基本上是一个结构化数据,可以给我们提供很多实体词源。
通过收集以上的词汇作为不同的类型实体词典,我们可以使用字符串匹配的方式标识句子中出现的实体词。
但对于有些情况来说,比如version、file、update等,严格的字符串匹配是不行的,需要通过启发式的方法或者正则表达式算法进行匹配。本文通过对各种形式定义不同的正则表达式模板或者规则进行匹配。
为了评估自动化标注算法的效果,本发明随机抽取了50条数据,进行人工标注,然后对比与自动化标注的结果,对于每一种实体类别分别统计TP、FP、TN、FN的值,并且进行三次独立的实验评估(每次均随机抽50条),实验评估的结果如下:
表4
评估实验 Recall Precision F1
1 77.5% 99% 86.9%
2 70% 98% 81%
3 78% 94.5% 85.6%
本发明采用了Bi-LSTM来对句子进行编码,首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码和,两个向量分别兼顾了该词的上文信息和下文信息,能够更好进行下一步的识别和分类。如图2是Bi-LSTM的结构图,通过LSTM得到每个词语的表征之后,直接将这个问题看做是单个词语的分类问题,所以对于每个词语的表征通过一个参数共享的前向神经网络,使用激活函数Softmax得到类别取值的概率分布。公式如下:
Figure BDA0002260603950000071
zi=wTHi+b
Fi=softmax(zi)
本发明通过前向神经网络得到每个词语的类别标签的概率分布,然后使用交叉熵作为损失函数进行权重更新。损失函数公式如下:
Figure BDA0002260603950000072
在实验数据集上,本发明的准确率较以往的方法,获得了更高的准确率,准确率到了97.5%。
在从句子中抽取出实体词之后,需要挖掘实体词之间的关系,以便能够建立实体之间的关系。对一个句子进行实体词识别之后,会从中抽取出一个集为L实体词列表,L中的每个实体词的类型记为TypeLi,本发明定义了Type之间的关系,我们将Typei和Typej之间的关系记为RelTi,Tj,我们根据本体库的定义把可能存在关系的实体词对,记为一个待分类问题,即Li和Lj之间是否存在关系
Figure BDA0002260603950000073
即计算条件概率
Figure BDA0002260603950000074
的条件概率分布,概率最大的Rel即为答案。
在确立好问题模型之后,需要大量的标注数据集来进行模型训练,而在信息安全领域缺乏这样的数据集,人工标注的成本也太高,于是本发明使用了自动标注的方法基于已有的三元组知识来进行标注得到一个训练集,以此来进行训练。具体步骤如下:
(1)首先基于CVE数据中提取出的字段建立一个三元组的词典,比如(Microsoft,DEVELOP,Windows10)。这些知识是被保证是正确的知识。
(2)然后对于一个句子中识别出来的实体词,两两查看是否在三元组字典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中去。
本发明设计了基于attention结构的LSTM来刻画上下文,并通过学习实体词的类型向量为模型提供更多的信息,关系分类模型结构图如图3所示,其结构说明如下:
首先将句子中的词Xi通过词向量编码对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过a注意力层计算一个权重分布,最后得到Hi的加权和Hs(即图中注意力层的结果)再将两个实体词对应的实体类型进行向量编码为两个8维的向量,与Hs向量拼接到一起得到一个新的向量P(即图中连接层的结果),向量P输入到一个全连接层,并输出一个softmax的概率分布向量作为最后的结果。公式如下:
ei=Wembedddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)]
SP=sum_pooling(eL1,eL2)
上式中ei为每个词对应的词向量,SP对应于实体词对的词向量和。Attention层公式如下:
α=softmax(wT[SP,Hi,dot_product(SP,Hi)])
Hs=αH
上式为H为表示[H1,H2,...,HT],Hs即为attention层的输出,也就是Hi的加权和。
为了提供给网络更直接的信息,减少误分类的情况,本发明将两个实体词对应的实体类型进行向量编码为两个8维的向量,与Hs向量拼接到一起得到一个新的向量P,向量P输入到一个全连接层,并输出一个softmax的概率分布向量作为最后的结果。最终的损失函数采用交叉熵损失。
训练时的主要参数如表6:
表6
Figure BDA0002260603950000081
Figure BDA0002260603950000091
在测试集上准确率达到了87%,以及远远超过以往地技术方案。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于深度学习的信息安全知识图谱的自动构建方法,其特征在于,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,抽取文本中的三元组。
2.如权利要求1所述的方法,其特征在于,所述本体库的包括实体的类型和实体的关系,所述实体类型共12种,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,恶意软件,防御工具,软件的更新,软件的版本,文件,代码块,硬件;所述关系共8种。
3.如权利要求2所述的方法,其特征在于,所述对本体库的数据集进行标注的具体方式为,首先根据本题库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注。
4.如权利要求3所述的方法,其特征在于,采用了Bi-LSTM来对句子进行编码的具体方式为首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码
Figure FDA0002260603940000011
Figure FDA0002260603940000012
两个向量分别表示该词的上文信息和下文信息。并且使用激活函数得到类别取值的概率分布的具体方式为
Figure FDA0002260603940000013
zi=wTHi+b
Fi=softmax(zi),
其中以上公式中的Hi对应于第i的词的向量表达,concat是一个连接操作,将两个向量拼接到一起,wT,b分别为权重和偏差,zi是经过一个全连接层对于每个词语的向量表示,Fi为最终每个词语的类别概率分布,表示该词语属于哪个类别,softmax是一个权重函数,输出每个类别的概率。
5.如权利要求5所述的方法,其特征在于,所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组字典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中。从而构造出一个用来做关系抽取的数据集。
6.如权利要求5所述的方法,其特征在于,所述建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:
ei=Wembeddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)]
SP=sum_pooling(eL1,eL2)
α=softmax(wT[SP,Hi,dot_product(SP,Hi)])
Hs=αH
其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量。上式为H为表示[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM。上式中ei为每个词对应的词向量,SP对应于实体词对的词向量和,dot_Product表示两个向量的点积。
CN201911069823.9A 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法 Active CN110941716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911069823.9A CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911069823.9A CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Publications (2)

Publication Number Publication Date
CN110941716A true CN110941716A (zh) 2020-03-31
CN110941716B CN110941716B (zh) 2023-07-18

Family

ID=69906600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911069823.9A Active CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Country Status (1)

Country Link
CN (1) CN110941716B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111723368A (zh) * 2020-05-28 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统
CN111741023A (zh) * 2020-08-03 2020-10-02 中国人民解放军国防科技大学 面向网络攻防试验平台的攻击研判方法、系统及介质
CN112183102A (zh) * 2020-10-15 2021-01-05 上海明略人工智能(集团)有限公司 基于注意力机制与图注意力网络的命名实体识别方法
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112818683A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN114780691A (zh) * 2022-06-21 2022-07-22 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质
CN116431818A (zh) * 2022-11-15 2023-07-14 电子科技大学 一种用于热加工工艺设计的知识图谱自动构建方法
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117874755B (zh) * 2024-03-13 2024-05-10 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270604A1 (en) * 2010-04-28 2011-11-03 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270604A1 (en) * 2010-04-28 2011-11-03 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
秦娅: "网络安全知识图谱构建关键技术研究", 《中国优秀硕士学位论文全文数据库》 *
秦娅: "网络安全知识图谱构建关键技术研究", 《中国优秀硕士学位论文全文数据库》, no. 9, 15 September 2019 (2019-09-15), pages 10 - 46 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111723368A (zh) * 2020-05-28 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统
CN111723368B (zh) * 2020-05-28 2023-12-15 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111506722B (zh) * 2020-06-16 2024-03-08 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111741023A (zh) * 2020-08-03 2020-10-02 中国人民解放军国防科技大学 面向网络攻防试验平台的攻击研判方法、系统及介质
CN111741023B (zh) * 2020-08-03 2020-11-17 中国人民解放军国防科技大学 面向网络攻防试验平台的攻击研判方法、系统及介质
CN112183102A (zh) * 2020-10-15 2021-01-05 上海明略人工智能(集团)有限公司 基于注意力机制与图注意力网络的命名实体识别方法
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112667820B (zh) * 2020-12-08 2023-04-18 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112818683A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法
WO2022160445A1 (zh) * 2021-01-28 2022-08-04 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN114780691A (zh) * 2022-06-21 2022-07-22 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质
CN116431818B (zh) * 2022-11-15 2023-12-05 电子科技大学 一种用于热加工工艺设计的知识图谱自动构建方法
CN116431818A (zh) * 2022-11-15 2023-07-14 电子科技大学 一种用于热加工工艺设计的知识图谱自动构建方法
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117874755B (zh) * 2024-03-13 2024-05-10 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法

Also Published As

Publication number Publication date
CN110941716B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110941716A (zh) 一种基于深度学习的信息安全知识图谱的自动构建方法
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111428054A (zh) 一种网络空间安全领域知识图谱的构建与存储方法
US7606784B2 (en) Uncertainty management in a decision-making system
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
Luo et al. Context-dependent knowledge graph embedding
CN113779272B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN112507699A (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN115357904B (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
CN115292520A (zh) 一种面向多源移动应用知识图谱构建方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN115329380A (zh) 一种数据库表分类分级方法、装置、设备及存储介质
CN115409122A (zh) 一种变电设备并发故障分析方法、系统、设备及介质
CN114579761A (zh) 信息安全知识实体关系连接预测方法、系统及介质
CN116628695A (zh) 基于多任务学习的漏洞挖掘方法及装置
CN114756679A (zh) 基于交谈注意力机制的中文医学文本实体关系联合抽取方法
CN113657986A (zh) 基于混合神经网络的企业非法集资风险预测方法
CN117616439A (zh) 用于检测软件漏洞修复的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant