CN110941716B - 一种基于深度学习的信息安全知识图谱的自动构建方法 - Google Patents

一种基于深度学习的信息安全知识图谱的自动构建方法 Download PDF

Info

Publication number
CN110941716B
CN110941716B CN201911069823.9A CN201911069823A CN110941716B CN 110941716 B CN110941716 B CN 110941716B CN 201911069823 A CN201911069823 A CN 201911069823A CN 110941716 B CN110941716 B CN 110941716B
Authority
CN
China
Prior art keywords
entity
word
lstm
labeling
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911069823.9A
Other languages
English (en)
Other versions
CN110941716A (zh
Inventor
李博
左光胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911069823.9A priority Critical patent/CN110941716B/zh
Publication of CN110941716A publication Critical patent/CN110941716A/zh
Application granted granted Critical
Publication of CN110941716B publication Critical patent/CN110941716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi‑LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。

Description

一种基于深度学习的信息安全知识图谱的自动构建方法
技术领域
本发明涉及一种图谱的自动构建方法,尤其涉及一种基于深度学习的信息安全知识图谱的自动构建方法。
背景技术
目前的信息安全知识库大多数采用人工维护和更新的方式进行维护,比较著名的比如CVE(公共漏洞知识库),但CVE的更新大多采用人工手动更新的方式,不能及时地更新一些新发现地漏洞和攻击知识,而这些知识往往都已经在第一时间发表在相关公司厂商或者安全团队的博客里,所以有必要采用一种自动更新的方式从文本中挖掘和提取知识。
除了公开的知识库之外,现有技术有一些研究比如Stucco,通过采用机器学习的方法从文本中提取三元组从而构建知识图谱,在实体识别过程中采用最大熵模型基于标注的预料进行训练从而从文本提取相关的实体,在提取实体之后,使用基于主动学习的半监督方法进行关系抽取,构建了一个信息安全的知识库。
然而目前现有技术中存在两个问题,第一,基于人工整理的方式,虽然具有较好的准确率,但是存在更新不及时的问题;第二,目前基于机器学习方法的研究,算法的效果不够好,尤其是在关系抽取阶段,介入了人工的辅助才能进行学习,构建过程仍然不是完全自动化。
发明内容
针对上述问题,本发明提出了一种基于深度学习的信息安全知识图谱的自动构建方法,通过建立模型自动识别信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。
一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,
步骤1,构建信息安全知识图谱的本体库;
步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;
步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,从而抽取出文本中的三元组(关系)。
进一步,所述本体库的包括实体的类型和实体的关系,所述实体类型共12种,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,恶意软件,防御工具,软件的更新,软件的版本,文件,代码块,硬件;所述关系共8种。
进一步,所述对本体库的数据集进行标注的具体方式为,首先根据本题库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注。
进一步,采用了Bi-LSTM来对句子进行编码的具体方式为首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码和/>两个向量分别表示该词的上文信息和下文信息。并且使用激活函数得到类别取值的概率分布的具体方式为/>
zi=wTHi+b
Fi=softmax(zi),
其中以上公式中的Hi对应于第i的词的向量表达,concat是一个连接操作,将两个向量拼接到一起,wT,b分别为权重和偏差,zi是经过一个全连接层对于每个词语的向量表示,Fi为最终每个词语的类别概率分布,表示该词语属于哪个类别,softmax是一个权重函数,输出每个类别的概率。
进一步,所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组字典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中。从而构造出一个用来做关系抽取的数据集。
进一步,所述建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:
ei=Wembeddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)]
SP=sum_pooling(eL1,eL2)
α=softmax(wT[SP,Hi,dot_product(SP,Hi)])
Hs=αH
其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量。上式为H为表示[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM。上式中ei为每个词对应的词向量,SP对应于实体词对的词向量和,dot_product表示两个向量的点积。
本发明能够自动地从文本中挖掘和提取有用地信息安全知识,从而整合成一个可供检索和使用的信息安全知识库。通过机器学习方法以有监督的方式训练模型,从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系,而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间,本发明自动获得一份较好的数据。
附图说明
图1为本发明的具体流程图;
图2为本发明的Bi-LSTM结构图;
图3为本发明的LSTM的关系分类模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在进行知识图谱构建之前,首先构建知识图谱存储知识的类型,以及知识之间的关系,本发明结合安全知识库的模式定义了一个全面的信息安全知识图谱的本体库。表1为实体类型表,表2为实体关系的定义表。
表1实体类型表
实体名称 描述
Software 软件,包括应用软件和系统软件
Vendor 软件供应商或者开发商
Vulnerability 漏洞
Vul_Type 漏洞类型
Attack 攻击或者漏洞利用
Malware 恶意软件
Defense_Tool 防御工具
Update 软件的更新或者补丁
Version 软件的版本
File 文件或者路径
Function 代码块或者API接口
Hardware 硬件,网络硬件或者信息存储、计算的硬件
表2实体关系表
表3为解释了关系(Rel)的含义表。
表3
关系(Rel) 对应的含义描述
AFFECT 影响或者造成威胁
DEFEND 防御或者修复之后从来避免
DEV 开发与维护
EXPLOIT 利用
IS_A 是或者属于的关系
PUBLISH 发布或者发行
RELATED 相关,具有某种联系
RUNON 运行在这之上
目前定义了12种实体类型,8种关系,其中RELATED关系是一种比较泛化或者模糊表达的关系,表示这两个之间有关系,例如某个漏洞可能有某个文件或者某个API或者函数块有关。
在获取到大量的非结构化数据和文本数据之后,为了能够自动地从文本中提取知识,需要通过机器学习方法以有监督的方式训练模型,从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。
而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间,本发明自动获得一份较好的数据。
首先根据本体库定义的实体类型,对每一种类型的实体收集尽可能多的词汇,相当于得到了一个实体词典,然后根据实体词典对文本句子进行标注,本发明BIO-tagging的格式进行标注,例如B-Vendor表示Vendor类型实体词的开始部分,I-Vendor表示Vendor类型实体词的中间和结尾部分,0表示其他词汇,即不属于任何实体类型或者实体词。
实体词典的来源主要是解析自CVE中的相关字段,比如上文提到的affected-vendor,affected-software,可以直接作为vendor和software的词典来源。CVE数据是指前文提到的公共漏洞库,里面每一个目录对应于一个漏洞的详细信息,比如这个漏洞所影响到的软件,软件厂商,以及漏洞的评级,还有漏洞的描述文本,CVE数据基本上是一个结构化数据,可以给我们提供很多实体词源。
通过收集以上的词汇作为不同的类型实体词典,我们可以使用字符串匹配的方式标识句子中出现的实体词。
但对于有些情况来说,比如version、file、update等,严格的字符串匹配是不行的,需要通过启发式的方法或者正则表达式算法进行匹配。本文通过对各种形式定义不同的正则表达式模板或者规则进行匹配。
为了评估自动化标注算法的效果,本发明随机抽取了50条数据,进行人工标注,然后对比与自动化标注的结果,对于每一种实体类别分别统计TP、FP、TN、FN的值,并且进行三次独立的实验评估(每次均随机抽50条),实验评估的结果如下:
表4
评估实验 Recall Precision F1
1 77.5% 99% 86.9%
2 70% 98% 81%
3 78% 94.5% 85.6%
本发明采用了Bi-LSTM来对句子进行编码,首先将句子序列中的每个词转化为词向量,然后作为LSTM的输入,LSTM每一个STEP的输出作为句子中对应词的表征,Bi-LSTM从句子的两个方向分别进行编码,由此对于每一个词语得到了两个表征编码和,两个向量分别兼顾了该词的上文信息和下文信息,能够更好进行下一步的识别和分类。如图2是Bi-LSTM的结构图,通过LSTM得到每个词语的表征之后,直接将这个问题看做是单个词语的分类问题,所以对于每个词语的表征通过一个参数共享的前向神经网络,使用激活函数Softmax得到类别取值的概率分布。公式如下:
zi=wTHi+b
Fi=softmax(zi)
本发明通过前向神经网络得到每个词语的类别标签的概率分布,然后使用交叉熵作为损失函数进行权重更新。损失函数公式如下:
在实验数据集上,本发明的准确率较以往的方法,获得了更高的准确率,准确率到了97.5%。
在从句子中抽取出实体词之后,需要挖掘实体词之间的关系,以便能够建立实体之间的关系。对一个句子进行实体词识别之后,会从中抽取出一个集为L实体词列表,L中的每个实体词的类型记为TypeLi,本发明定义了Type之间的关系,我们将Typei和Typej之间的关系记为RelTi,Tj,我们根据本体库的定义把可能存在关系的实体词对,记为一个待分类问题,即Li和Lj之间是否存在关系即计算条件概率/>的条件概率分布,概率最大的Rel即为答案。
在确立好问题模型之后,需要大量的标注数据集来进行模型训练,而在信息安全领域缺乏这样的数据集,人工标注的成本也太高,于是本发明使用了自动标注的方法基于已有的三元组知识来进行标注得到一个训练集,以此来进行训练。具体步骤如下:
(1)首先基于CVE数据中提取出的字段建立一个三元组的词典,比如(Microsoft,DEVELOP,Windows10)。这些知识是被保证是正确的知识。
(2)然后对于一个句子中识别出来的实体词,两两查看是否在三元组字典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中去。
本发明设计了基于attention结构的LSTM来刻画上下文,并通过学习实体词的类型向量为模型提供更多的信息,关系分类模型结构图如图3所示,其结构说明如下:
首先将句子中的词Xi通过词向量编码对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过a注意力层计算一个权重分布,最后得到Hi的加权和Hs(即图中注意力层的结果)再将两个实体词对应的实体类型进行向量编码为两个8维的向量,与Hs向量拼接到一起得到一个新的向量P(即图中连接层的结果),向量P输入到一个全连接层,并输出一个softmax的概率分布向量作为最后的结果。公式如下:
ei=Wembedddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)]
SP=sum_pooling(eL1,eL2)
上式中ei为每个词对应的词向量,SP对应于实体词对的词向量和。Attention层公式如下:
α=softmax(wT[SP,Hi,dot_product(SP,Hi)])
Hs=αH
上式为H为表示[H1,H2,...,HT],Hs即为attention层的输出,也就是Hi的加权和。
为了提供给网络更直接的信息,减少误分类的情况,本发明将两个实体词对应的实体类型进行向量编码为两个8维的向量,与Hs向量拼接到一起得到一个新的向量P,向量P输入到一个全连接层,并输出一个softmax的概率分布向量作为最后的结果。最终的损失函数采用交叉熵损失。
训练时的主要参数如表6:
表6
在测试集上准确率达到了87%,以及远远超过以往地技术方案。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于深度学习的信息安全知识图谱的自动构建方法,其特征在于,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的LSTM结构作为关系抽取的模型,抽取文本中的三元组;本体库包括实体的类型和实体的关系,所述实体类型包括软件,软件供应商,漏洞,漏洞类型,攻击,防御工具,软件的更新,软件的版本,硬件;所述关系包括:影响或者造成威胁、开发与维护、利用、是或者属于的关系、发布或者发行;对本体库的数据集进行标注的具体方式为,首先根据本体库定义的实体类型,对每一种类型的实体收集词汇构成实体词典,然后根据实体词典对文本句子进行标注;所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典,然后对于一个句子中识别出来的实体词,两两去查看是否在三元组词典中,如果在,将这个实体对和该句子作为一个训练样本加入到训练集中,从而构造出一个用来做关系抽取的数据集;
建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示,然后通过Bi-LSTM得到对应于每个词的隐状态Hi,然后与实体词L1和L2的向量和通过注意力层计算一个权重分布,最后得到Hi的加权和Hs,公式如下:
ei=Wembeddingxi
Hi=[forward_LSTM(ei),backward_LSTM(ei)];
SP=sum_pookling(eL1,eL2);
α=softmax(wT[SP,Hi,dot_product(SP,Hi)]);
Hs=αH;
其中上式中Wembedding对应于每个词的词向量,上式中xi为对应每个词的编号,通过编号在词向量表中我们索引到对应该词的向量,H表示为[H1,H2,...,HT],Hs即为注意力层的输出,其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM,上式中ei为每个词对应的词向量,SP对应于实体词对eL1,eL2的词向量和,dot_product表示两个向量的点积,wT为权重;
通过前向神经网络得到每个词语的类别标签的概率分布,然后使用交叉熵作为损失函数进行权重更新。
CN201911069823.9A 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法 Active CN110941716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911069823.9A CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911069823.9A CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Publications (2)

Publication Number Publication Date
CN110941716A CN110941716A (zh) 2020-03-31
CN110941716B true CN110941716B (zh) 2023-07-18

Family

ID=69906600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911069823.9A Active CN110941716B (zh) 2019-11-05 2019-11-05 一种基于深度学习的信息安全知识图谱的自动构建方法

Country Status (1)

Country Link
CN (1) CN110941716B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111723368B (zh) * 2020-05-28 2023-12-15 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统
CN111506722B (zh) * 2020-06-16 2024-03-08 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111741023B (zh) * 2020-08-03 2020-11-17 中国人民解放军国防科技大学 面向网络攻防试验平台的攻击研判方法、系统及介质
CN112183102A (zh) * 2020-10-15 2021-01-05 上海明略人工智能(集团)有限公司 基于注意力机制与图注意力网络的命名实体识别方法
CN112667820B (zh) * 2020-12-08 2023-04-18 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112818683A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法
CN112800775B (zh) * 2021-01-28 2024-05-31 中国科学技术大学 语义理解方法、装置、设备及存储介质
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及系统
CN114780691B (zh) * 2022-06-21 2022-12-02 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质
CN116431818B (zh) * 2022-11-15 2023-12-05 电子科技大学 一种用于热加工工艺设计的知识图谱自动构建方法
CN117874755B (zh) * 2024-03-13 2024-05-10 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117910567A (zh) * 2024-03-20 2024-04-19 道普信息技术有限公司 一种基于安全词典、深度学习网络的漏洞知识图谱构造方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Also Published As

Publication number Publication date
CN110941716A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN110941716B (zh) 一种基于深度学习的信息安全知识图谱的自动构建方法
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
Yu et al. Global inference for aspect and opinion terms co-extraction based on multi-task neural networks
Luo et al. Context-dependent knowledge graph embedding
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN113486357B (zh) 一种基于静态分析和深度学习的智能合约安全检测方法
CN113641819B (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
KR20220091676A (ko) 비정형 사이버 위협 정보 빅데이터 구축 장치, 사이버 위협 정보 빅데이터 구축 및 연관성 분석 방법
CN113010209A (zh) 一种抗编译差异的二进制代码相似性比较技术
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN113254934B (zh) 基于图匹配网络的二进制代码相似性检测方法及系统
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
CN113609488B (zh) 基于自监督学习及多通道超图神经网络的漏洞检测方法与系统
CN115357904B (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
Althar et al. [Retracted] Software Systems Security Vulnerabilities Management by Exploring the Capabilities of Language Models Using NLP
WO2022121146A1 (zh) 一种代码片段重要性的判断方法和装置
CN112613040A (zh) 一种基于二进制程序的漏洞检测方法及相关设备
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Bonadiman et al. Deep neural networks for named entity recognition in Italian
CN116305158A (zh) 一种基于切片代码依赖图语义学习的漏洞识别方法
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN113392929B (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
CN117616439A (zh) 用于检测软件漏洞修复的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant