CN113961933A - 一种基于改进Bert模型的信息安全漏洞分类方法 - Google Patents

一种基于改进Bert模型的信息安全漏洞分类方法 Download PDF

Info

Publication number
CN113961933A
CN113961933A CN202111227292.9A CN202111227292A CN113961933A CN 113961933 A CN113961933 A CN 113961933A CN 202111227292 A CN202111227292 A CN 202111227292A CN 113961933 A CN113961933 A CN 113961933A
Authority
CN
China
Prior art keywords
vulnerability
model
data set
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111227292.9A
Other languages
English (en)
Other versions
CN113961933B (zh
Inventor
王杰华
石锴
武卫翔
张金宝
朱飞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202111227292.9A priority Critical patent/CN113961933B/zh
Publication of CN113961933A publication Critical patent/CN113961933A/zh
Application granted granted Critical
Publication of CN113961933B publication Critical patent/CN113961933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法,包括步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为<漏洞文本描述,漏洞类别>;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现;本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。

Description

一种基于改进Bert模型的信息安全漏洞分类方法
技术领域
本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法。
背景技术
随着信息技术的快速发展,互联网以及计算机的应用已经渗透到人类生产生活的各个方面。然而,网络安全问题影响到国家、企业和个人的经济损失。因此,网络安全问题迅速受到人们的重视。目前,漏洞数量增长迅猛,已成为威胁网络和信息系统安全的主要诱因。由于新漏洞的大量增加,如何准确、高效地评估网络中安全漏洞的威胁程度已成为网络安全分析领域的重要挑战。传统的安全漏洞分析方法需要大量的人工参与,不仅费时费力,而且遗漏了大量的漏洞,漏报率很高。因此,对信息安全漏洞进行规范、合理的分类并对其进行危害评估,有助于国家漏洞数据库的建设,给广大从事于信息安全与网络安全的研究人员提供完整的数据来源;有助于增强对漏洞本质的进一步理解。
近年来,刘春刚等人借鉴文本挖掘的思想和方法,选取了世界计算机安全应急小组(CERT)三年内两千多个数据,并将支持向量机(Support Vector Machine,SVM)文本分类技术应用到漏洞管理中,实现了漏洞的自动分类。Yamamoto等人将机器学习与文本挖掘技术相结合,将美国国家信息安全漏洞库(NVD)上的数据应用在LDA、SLI和SLDA模型提取NVD文本的主题,并利用主题对漏洞特征进行评估。同时引入线性函数和sigmoid函数进行权重分配,提高了分类和预测的准确性。Ghaffarian等人比较了决策树、支持向量机和神经网络三种方法对漏洞描述文本进行分析,并对相应的评价值进行了分类。Hou等人提出了一种基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的安全漏洞威胁分类方法,并从半结构化漏洞描述中提取有效特征。Wang等比较了多种机器学习方法,如支持向量机(SVM)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)和极端梯度提升(XGBoost)智能预测漏洞安全级别。随着信息安全漏洞数量的增加,传统的机器学习的劣势越来越凸显,比如准确性差、需要复杂的特征工程等。而深度神经网络凭借一流的性能在许多领域取得了远远超过传统机器学习方法的精度。
目前,深度学习技术已经广泛应用于图像处理、语音识别和自然语言处理。漏洞描述文本是一种非结构化的时间序列数据。Zhou等人利用长短期记忆网络(long-shortmemory networks,LSTM)进行文本分类,取得了优异的性能。S.Lai引入循环卷积神经网络(Region-CNN,RCNN),用于不含人工设计特征的文本分类,该方法在多个数据集中优于最先进的方法。但上述深度学习方法对模型的训练仅局限于自身的数据集,缺少先验知识,易出现随机初始化和过拟合的现象。
为了解决上述问题,本文根据自然语言处理领域中预训练模型发展的启发,提出了一种针对信息安全领域并基于Bert的漏洞分类方法,进一步提高了分类模型的准确率并减少传统人工方法的工作量和误判率。
发明内容
针对以上问题,本发明提供了一种基于改进Bert模型的信息安全漏洞分类方法,用于提高分类模型的准确率并减少传统人工方法的工作量和误判率。
为了实现上述目的,本发明采用的技术方案如下:
一种基于改进Bert模型的信息安全漏洞分类方法,包括以下步骤:
步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为<漏洞文本描述,漏洞类别>;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn);
步骤b、训练模型,将上述分词输入进Bert模型,首先对Position嵌入和Token嵌入的学习,将学习到的两个嵌入向量叠加在一起,得到漏洞文本描述的嵌入特征向量X;再通过双层编码器进行漏洞文本语义的学习;
步骤c、分类处理,将相同的数据集对已有的漏洞文本分类模型进行训练。
优选地,所述步骤a中,包括:
选择中国国家信息安全漏洞库(CNNVD)2000-2020年中收录的所有漏洞信息数据作为数据集,该数据集总共包含128,299个漏洞信息;
将数据集中的数据按照4∶1的比例划分为训练集和测试集,其中训练集的数量为102416,测试集的数量为25883;根据漏洞类型的描述分类分为9种类别,该9种类别分别是“配置错误”;“资料不足”;“资源管理错误”;“输入验证”;“数字错误”;“信息泄露”;“安全特征问题”;“竞争条件”和“其他”。
优选地,所述步骤b中,包括:
1、词嵌入层,在该词嵌入层中加入对抗训练,以提升模型的鲁棒性和泛化能力;
2、双向编码器,将上述词嵌入层得到的向量输入到双向编码器中,进行语义学习;
3、多样本随机丢弃,创建多个dropout样本,计算每个样本的损失,然后取样本损失的平均值,得到最终的损失;
4、标签平滑,通过减少易分类样本的权重,使模型在训练时更专注于难分类的样本。
优选地,所述双向编码器包括:首先,模型将向量X输入到多头注意力机制层;然后,该模型利用残差连接和层归一化使矩阵操作维度一致,并将网络中的隐含层归一化为标准正态分布,可以加快模型的训练速度和收敛速度;在下一步,模型输入到前馈神经网络层,经过两层线性映射和激活函数;最后通过Softmax函数得到相应的漏洞文本。
本发明有益效果:
1、本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现。
2、本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi-sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。
附图说明
图1是本发明的方框图。
图2是本发明中双向编码器的结构示意图。
具体实施方式
下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-图2,一种基于改进Bert模型的信息安全漏洞分类方法,包括以下步骤:
步骤a、数据预处理,选择中国国家信息安全漏洞库(CNNVD)2000-2020年中收录的所有漏洞信息数据作为数据集,该数据集总共包含128,299个漏洞信息,其数据集格式为<漏洞文本描述,漏洞类别>。
使用中文分词对漏洞文本描述进行分词,将一个汉字序列进行切分,得到一个个单独的词。这里选择按字分词的方式,将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。
将数据集中的数据按照4∶1的比例划分为训练集和测试集,其中训练集的数量为102416,测试集的数量为25883;根据漏洞类型的描述分类分为9种类别,该9种类别分别是“配置错误”;“资料不足”;“资源管理错误”;“输入验证”;“数字错误”;“信息泄露”;“安全特征问题”;“竞争条件”和“其他”。
通过过滤和清洗的方式对数据集进行预处理,本实施例主要考虑两个问题:过滤缺失数据和去除特殊字符。在处理数据集时,发现部分数据在漏洞描述或者漏洞类型描述字段有缺失的情况,本实施例先对此类缺失数据进行删除,接着再对漏洞描述字段中的特殊字符通过正则表达式进行清理。由于中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本单位,词语之间没有明显的区分标记。本实施例使用的语料库大都为中文数据,中文分词将一个汉字序列进行切分,得到一个个单独的词。这里选择按字分词的方式,把数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。
步骤b、训练模型,将上述分词输入进Bert模型,首先对Position嵌入和Token嵌入的学习,将学习到的两个嵌入向量叠加在一起,得到漏洞文本描述的嵌入特征向量X;再通过双层编码器进行漏洞文本语义的学习。Bert使用Transformer作为算法的主要框架,因为Transformer可以更彻底地捕捉句子中的双向关系。具体过程如下:
1.词嵌入层:
在这一层中,模型通过词嵌入(Embedding)的方式学习单词之间的关系向量,通过位置编码(PositionalEncoding)的方式学习单词在句子中的位置关系向量。最后,将上述两个词嵌入层中得到的关系向量相加,得到最终的特征向量表示。
X=Embedding(X)+PositionalEncoding (1)
其中
Figure BDA0003314611330000041
seq_len表示输入序列的长度,embed_dim表示单词嵌入的维数。
在这层加入对抗训练FGM提供了一种正则化监督学习算法的方法,这种方法需要对输入向量的众多数据中进行小的扰动,然后放给模型训练,于是模型就有了识别对抗样本的能力,这样可以提升模型的鲁棒性和泛化能力。
实现细节就是在原始输入序列X的嵌入层,即在Embedding(X)上加一个扰动radv,得到对抗样本后用其进行训练,即
Figure BDA0003314611330000042
该公式分为两个部分,一个是内部损失函数的最大化,一个是外部风险的最小化。内部max,L为定义的损失函数,S为扰动的空间,此时本实施例的目的是求得让判断失误最多情况下扰动的量,即求得最佳的攻击参数;外部min,针对上述的攻击,找到最鲁棒的模型参数,进一步优化模型参数,其中D是输入样本的分布。而FGM增加的扰动为:
radv=∈·g/||g||2 (3)
Figure BDA0003314611330000051
新增的对抗样本为:
xadv=x+radv (5)
2.双向编码器
接着,将嵌入层(Embedding)得到的向量输入到双向编码器(BidirectionalEncoder)层,自注意力机制处理完数据后把数据送给前馈神经网络,前馈神经网络的计算可以并行,得到的输出会输入到下一个编码器。如图2所示。
a.自注意力(self-attention)机制:
自注意力机制能帮助当前节点不仅仅只关注当前的词,还能获取到上下文的语义。在self-attention中,Q=K=V每个序列中的单元和该序列中所有单元进行attention计算。自注意力机制的公式可以定义为:
Figure BDA0003314611330000052
self-attention的特点在于无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现也较为简单并且可以并行计算。
b.残差连接和层归一化:
Xattention=X+Xattention (7)
Xattention=LayerNorm(Xattention) (8)
层归一化可以缓解梯度消失或者梯度爆炸的问题,并加速训练和正则化的效果。残差连接可以解决网络退化的问题。
c.前馈神经网络层:
Figure BDA0003314611330000053
3.多样本随机丢弃
Dropout是一种简单而有效的正则化技术,可以更好地泛化深度神经网络。在训练过程中,dropout随机丢弃一部分神经元,以避免过度拟合。而多样本的dropout技术,它既可以加速训练,又可以提高在原始dropout基础上的泛化能力。在每次训练迭代中,原始的dropout从输入中创建一个随机选择的子集(称为dropout样本),而多样本的dropout创建多个dropout样本。接着计算每个样本的损失,然后取样本损失的平均值,得到最终的损失。该方法以最后的损失值作为优化训练的目标函数,以最后一个全连接层输出的最大值的类标签作为预测标签。
4.标签平滑
标签平滑Focal loss主要是为了解决难易样本数量不平衡的问题。通过减少易分类样本的权重,使模型在训练时更专注于难分类的样本。这个损失函数是在标准交叉熵损失基础上修改得到的。在训练的时候正负样本的数量差距很大,可以通过设定一个系数α∈[0,1]来控制正负样本对总的loss的共享权重,定义αt和定义pt类似:
CE(pt)=-αtlog(pt) (10)
前面的公式虽然可以控制正负样本的权重,但是不能控制难易分类样本的权重,引出focal loss函数:
FL(pt)=-(1-pt)γlog(pt),γ≥0 (11)
这里(1-pt)γ称为调制系数,它的目的是通过减少易分类样本的权重,从而使得模型在训练时更加专注于难分类的样本。
结合上述公式(10)和(11),既能调整正负样本的权重,又能控制难易分类样本的权重:
FL(pt)=-αt(1-pt)γlog(pt) (12)
本实施例中γ=2,α=0.25的效果最好。
步骤c、分类处理,将相同的数据集对已有的漏洞文本分类模型进行训练。经实验表明,本发明提出的分类方法最后的分类效果要优于已有的方法。
表1基于Accuracy指标的实验结果
Figure BDA0003314611330000061
表2基于Precision指标的实验结果
Figure BDA0003314611330000062
Figure BDA0003314611330000071
表3基于Recall指标的实验结果
Figure BDA0003314611330000072
表4基于F1值指标的实验结果
Figure BDA0003314611330000073
为了评估漏洞文本分类模型的表现,采用Accuracy,Precision,Recall以及F1值作为评估指标,如表所示,整体而言,本发明使用的改进Bert模型要优于其他传统方法。
综上所述,本发明先将输入序列X输入到加入对抗训练的词嵌入层,再通过多头注意力层,利用自注意力机制计算各层的attention。然后模型将其输入到残差连接和归一化层,并将编码中的隐含层归一化为标准正态分布,以加快训练速度和加速收敛。下一步是输入到前馈层,经过两层线性映射和激活函数。最后,重复上述步骤N次,N为编码层数。中间加入multi-sample dropout和Focal loss这两个技巧,以提高模型的鲁棒性和泛化能力。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (4)

1.一种基于改进Bert模型的信息安全漏洞分类方法,其特征在于:包括以下步骤:
步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为<漏洞文本描述,漏洞类别>;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn);
步骤b、训练模型,将上述分词输入进Bert模型,首先对Position嵌入和Token嵌入的学习,将学习到的两个嵌入向量叠加在一起,得到漏洞文本描述的嵌入特征向量X;再通过双层编码器进行漏洞文本语义的学习;
步骤c、分类处理,将相同的数据集对已有的漏洞文本分类模型进行训练。
2.根据权利要求1所述的一种基于改进Bert模型的信息安全漏洞分类方法,其特征在于:所述步骤a中,包括:
选择中国国家信息安全漏洞库(CNNVD)2000-2020年中收录的所有漏洞信息数据作为数据集,该数据集总共包含128,299个漏洞信息;
将数据集中的数据按照4:1的比例划分为训练集和测试集,其中训练集的数量为102416,测试集的数量为25883;根据漏洞类型的描述分类分为9种类别,该9种类别分别是“配置错误”;“资料不足”;“资源管理错误”;“输入验证”;“数字错误”;“信息泄露”;“安全特征问题”;“竞争条件”和“其他”。
3.根据权利要求1所述的一种基于改进Bert模型的信息安全漏洞分类方法,其特征在于:所述步骤b中,包括:
1、词嵌入层,在该词嵌入层中加入对抗训练,以提升模型的鲁棒性和泛化能力;
2、双向编码器,将上述词嵌入层得到的向量输入到双向编码器中,进行语义学习;
3、多样本随机丢弃,创建多个dropout样本,计算每个样本的损失,然后取样本损失的平均值,得到最终的损失;
4、标签平滑,通过减少易分类样本的权重,使模型在训练时更专注于难分类的样本。
4.根据权利要求3所述的一种基于改进Bert模型的信息安全漏洞分类方法,其特征在于:所述双向编码器包括:首先,模型将向量X输入到多头注意力机制层;然后,该模型利用残差连接和层归一化使矩阵操作维度一致,并将网络中的隐含层归一化为标准正态分布,可以加快模型的训练速度和收敛速度;在下一步,模型输入到前馈神经网络层,经过两层线性映射和激活函数;最后通过Softmax函数得到相应的漏洞文本。
CN202111227292.9A 2021-10-21 2021-10-21 一种基于改进Bert模型的信息安全漏洞分类方法 Active CN113961933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111227292.9A CN113961933B (zh) 2021-10-21 2021-10-21 一种基于改进Bert模型的信息安全漏洞分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111227292.9A CN113961933B (zh) 2021-10-21 2021-10-21 一种基于改进Bert模型的信息安全漏洞分类方法

Publications (2)

Publication Number Publication Date
CN113961933A true CN113961933A (zh) 2022-01-21
CN113961933B CN113961933B (zh) 2024-07-23

Family

ID=79465360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111227292.9A Active CN113961933B (zh) 2021-10-21 2021-10-21 一种基于改进Bert模型的信息安全漏洞分类方法

Country Status (1)

Country Link
CN (1) CN113961933B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033896A (zh) * 2022-08-15 2022-09-09 鹏城实验室 以太坊智能合约漏洞检测方法、装置、系统与介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089389A1 (en) * 2017-11-03 2019-05-09 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for prioritizing software vulnerabilities for patching
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN113139054A (zh) * 2021-04-21 2021-07-20 南通大学 一种基于Transformer的代码编程语言分类方法
WO2021148625A1 (en) * 2020-01-23 2021-07-29 Debricked Ab A method for identifying vulnerabilities in computer program code and a system thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089389A1 (en) * 2017-11-03 2019-05-09 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for prioritizing software vulnerabilities for patching
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
WO2021148625A1 (en) * 2020-01-23 2021-07-29 Debricked Ab A method for identifying vulnerabilities in computer program code and a system thereof
CN113139054A (zh) * 2021-04-21 2021-07-20 南通大学 一种基于Transformer的代码编程语言分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033896A (zh) * 2022-08-15 2022-09-09 鹏城实验室 以太坊智能合约漏洞检测方法、装置、系统与介质
CN115033896B (zh) * 2022-08-15 2022-11-08 鹏城实验室 以太坊智能合约漏洞检测方法、装置、系统与介质

Also Published As

Publication number Publication date
CN113961933B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
He et al. See: Syntax-aware entity embedding for neural relation extraction
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN111581385B (zh) 一种不平衡数据采样的中文文本类别识别系统及方法
Zhang et al. Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及系统
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN107818080A (zh) 术语识别方法及装置
CN111563143A (zh) 一种新词的确定方法及装置
CN117421595B (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN115983274B (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN111104975A (zh) 一种基于广度学习的信用评估模型
Luo et al. Multi-featured cyberbullying detection based on deep learning
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
Wang et al. Enhancing rumor detection in social media using dynamic propagation structures
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN113961933B (zh) 一种基于改进Bert模型的信息安全漏洞分类方法
Zheng et al. Named entity recognition: A comparative study of advanced pre-trained model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant