CN116975863A - 基于卷积神经网络的恶意代码检测方法 - Google Patents

基于卷积神经网络的恶意代码检测方法 Download PDF

Info

Publication number
CN116975863A
CN116975863A CN202310840709.1A CN202310840709A CN116975863A CN 116975863 A CN116975863 A CN 116975863A CN 202310840709 A CN202310840709 A CN 202310840709A CN 116975863 A CN116975863 A CN 116975863A
Authority
CN
China
Prior art keywords
code
network
model
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310840709.1A
Other languages
English (en)
Inventor
方城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202310840709.1A priority Critical patent/CN116975863A/zh
Publication of CN116975863A publication Critical patent/CN116975863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于卷积神经网络的恶意代码检测方法,包括以下步骤:收集代码数据集并标注,将标注后的代码数据集按设定的数量比例划分为训练集和测试集;使用词袋模型将代码数据集的代码文件转换为词袋向量,采用TF‑IDF方法将转换后的训练集进行归一化;构建用于恶意代码检测的卷积神经网络模型,所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络,卷积网络使用残差结构的卷积块,使用训练集中的词袋向量对卷积神经网络模型进行训练,使用测试集评估出最佳模型;使用词袋模型将待检测代码文件转换后输入至所述最佳模型,最佳模型输出待检测代码文件的类别。本发明提出的恶意代码检测方法可快速检测出恶意代码并保证检测的精度。

Description

基于卷积神经网络的恶意代码检测方法
技术领域
本发明属于软件工程技术领域,特别涉及基于卷积神经网络的恶意代码检测方法。
背景技术
恶意代码根据其行为和执行过程分为许多类别,如蠕虫、病毒、特洛伊木马、rootkit、后门、间谍软件、逻辑炸弹、广告软件和勒索软件。攻击计算机系统是为了破坏计算机资源,获取经济利益,窃取私人和机密数据,使用计算资源,使系统无法获得服务等等。恶意代码的编写者和安全人员之间便是一场无止休的军备竞赛,一方面,安全人员在不断寻找新方法去提高恶意代码的检测能力,另一方面,恶意软件编写者也在不断提高代码的混淆能力以试图躲过检测。
现有技术中基于卷积神经网络的恶意代码检测方法,包括:公开号为“CN113806746A”的中国发明专利申请提出基于改进CNN网络的恶意代码检测方法,通过图像化技术将恶意代码转换成灰度图像特征,再通过N-Gram技术提取恶意代码的操作码序列特征,通过特征融合技术将全局特征和局部特征进行特征融合,得到的融合特征输入到改进的卷积神经网络模型训练并选用合适的分类器进行检测。公开号为“CN114238977A”的中国发明专利申请提出一种融合efficient-net和1d-cnn的恶意代码家族分类方法,将恶意代码的二进制文件分别转换为1维矢量和图像后,分别输入两个网络,将其特征图进行了金字塔融合。公开号为“CN116257851A”的中国发明专利申请提出的一种基于CNN和ViTransformer的软件恶意代码识别方法,对恶意代码源程序进行反汇编操作;将反汇编后的数据转换为灰度图;将灰度图输入到CNN网络,得到局部特征图;将局部特征图输入到转化模块中进行编码处理;将编码后的数据输入到Transformer模块中,得到恶意代码识别结果。以上发明均是将代码转换为图像后输入卷积网络模型进行检测,将代码转换为图像形式时,会丢失一些细节和语义信息,代码中的标识符、注释、缩进等都包含着重要的信息,但在转换为图像时可能无法很好地保留,这可能导致模型无法充分利用代码的结构和语义信息;另外,由于图像是具有固定大小的二维数据,而代码的长度和结构可能各不相同,在将代码转换为图像时,需要确定一个固定的图像大小,可能需要进行填充或截断操作,这可能会引入冗余信息或丢失部分代码信息;使得检测的效率及准确率不足。
词袋模型是一种常用的文本表示方法,它在文本处理任务中有广泛的应用。公开号为“CN110096591A”的中国发明专利申请提出基于词袋模型的长文本分类方法,首先获取待分类的长文本;根据预设规则滤除所述长文本中的噪音字符;基于第一词袋模型,从滤除所述噪音字符的长文本提取第一词袋特征向量,所述第一词袋模型的词典包括若干词语;基于第二词袋模型,从滤除所述噪音字符的长文本提取第二词袋特征向量,所述第二词袋模型的词典包括若干单个文字;基于分类模型,根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。
发明内容
本发明提供基于卷积神经网络的恶意代码检测方法,旨在解决现有卷积神经网络对恶意代码进行检测存在的效率及准确率不足的问题。
为解决上述技术问题,本发明提出基于卷积神经网络的恶意代码检测方法,包括以下步骤:
S1:收集代码数据集并标注,所述代码数据集包括恶意代码文件及正常代码文件,所述标注的内容为代码文件的类别,包括恶意文件及正常文件,将标注后的代码数据集按设定的数量比例划分为训练集和测试集。
S2:使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量,采用TF-IDF方法将转换后的训练集进行归一化。
S3:构建用于恶意代码检测的卷积神经网络模型,所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络,所述卷积网络使用残差结构的卷积块,用于提取词袋向量特征,所述池化网络用于降低卷积网络输出的特征矩阵的维度,所述全连接网络用于对输入的特征向量进行分类。
S4:使用所述训练集中的词袋向量对卷积神经网络模型进行训练,使用所述测试集评估出最佳模型。
S5:使用词袋模型将待检测代码文件转换后输入至所述最佳模型,最佳模型输出待检测代码文件的类别。
优选的,所述卷积网络将输入的词袋向量复制为两个子集,第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后,与第二子集相加,相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作。
优选的,所述TF-IDF方法对转换后的训练集进行归一化具体如下:
式中,vnorm为归一化后的词袋向量,v为原始的词袋向量,TF为词频,表示单词在代码文件中出现的频率,IDF为逆文本频率,表示单词在代码文件中区分力指标。TF和IDF的计算方法如下:
式中,TFi为单词i在一代码文件中出现的频率,ni为单词i在一代码文件中出现的次数,∑jnj为一代码文件中所有单词出现的次数之和,IDFi为单词i的逆文本频率,∑d表示训练集代码文件的总数量,di表示训练集中包含单词i的代码文件数量。
优选的,所述步骤S4对训练结果的评估采用F0.5分数,将F0.5分数首次大于80的模型作为最佳模型。
优选的,所述F0.5分数的计算公式如下:
式中,Precision表示精确率,Recall表示召回率,计算方法如下:
式中,TP表示真正例,FP表示假正例,FN表示假反例。
优选的,所述卷积网络的卷积核大小设置为3×3。
优选的,所述池化网络采用池化核大小为2×2、步幅为2的最大池化方法。
优选的,所述全连接网络的输出结果可以表示为:
y=Wx+b
式中,y是全连接网络的输出结果,W是全连接网络的权重矩阵,x是输入全连接网络的特征向量,b是偏置向量,W的维度为(nout,nin),其中nout是输出神经元的数量,nin是输入全连接网络特征向量的长度。
与现有技术相比,本发明具有以下技术效果:
1.本发明使用训练好的卷积神经网络模型对恶意代码进行检测,首先使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量,将词袋向量输入卷积神经网络中进行训练或检测,避免现有技术将代码转换为图像输入卷积神经网络进行检测导致的检测效率及精度不足的问题,有效提高恶意代码检测的效率及精度。
2.本发明提出的恶意代码检测方法采用TF-IDF对词袋模型转换后的词袋向量进行归一化。由于在词袋模型中,不同的词汇在文本中出现的频率差异很大,使用TF-IDF归一化可以对特征权重进行平衡,降低高频词对模型的影响,提高低频词的重要性,有助于更好地捕捉文本的关键特征;另外,词袋向量通常具有高维度和稀疏性的特点,通过TF-IDF归一化,可以将特征向量中的非零值缩放到一定范围内,减小特征向量的取值范围,从而降低向量的稀疏性,提高模型的计算效率。
3.本发明提出的恶意代码检测方法采用F0.5分数评估卷积神经网络模型的训练结果,F0.5分数相比于其他F分数(如F1分数)更加关注精确率,在恶意代码检测的任务中,精确率比召回率更为重要,可以有效减少误报的影响,使用F0.5分数能够使模型更加关注于精确率的提升,对于强调模型的准确性和可靠性是有益的。
4.本发明提出的恶意代码检测方法在卷积层中使用残差结构,通过将输入信号与卷积层输出信号进行直接相加,允许模型将前一层的特征与后一层的特征相加,从而使信息传播更顺畅,这有助于解决梯度消失或梯度爆炸问题,同时提高网络的深度和性能。
附图说明
图1是本发明提出的恶意代码检测方法流程图;
图2是本发明实施例的卷积神经网络结构示意图;
图3是本发明实施例的残差结构示意图;
图4是本发明实施例的全连接层结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例,并参照附图,对本发明的技术方案进行清楚、完整地描述。
在本实施例中,基于卷积神经网络的恶意代码检测方法,如图1所示,包括以下步骤:
S1:收集代码数据集并标注,所述代码数据集包括恶意代码文件及正常代码文件,所述标注的内容为代码文件的类别,包括恶意文件及正常文件,将标注后的代码数据集按设定的数量比例划分为训练集和测试集。
代码数据集采用网络安全公司Sophos和ReversingLabs联合发布的SoReL-20M数据集,其中包括其中含有1000万去除恶意软件功能的恶意文件样本,以及1000万非恶意文件中提取的特征和元数据,每份样本均标注了文件元数据、标签(恶意文件或正常文件)和特征的数据集。按照8:2的比例将2000万数据集分别划分为训练集及测试集,其中训练集中包含恶意文件样本及非恶意文件样本各800万份,测试集中包含恶意文件样本及非恶意文件样本各200万份。训练集用于卷积神经网络模型的训练,测试集用于评估训练结果并选出最佳模型用于对恶意代码进行检测。
S2:使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量,采用TF-IDF方法将转换后的训练集进行归一化。
构建词袋向量采用以下方式:
S2-1:构建词汇表,对每一份代码文件,遍历代码文件,按功能块收集所有不重复的单词或标记,并构建一个词汇表,词汇表中的每个单词或标记都将作为词袋模型中的一个特征。
对于一个简单的代码文件中单个功能块示例:
import numpy as np\nx=np.array([1,2,3])\nprint(x)
构建的词汇表如下:
vocabulary=[″import″,″numpy″,″np″,″array″,″x″,″1″,″2″,″3″,″print″]
S2-2:计算词频,计算词汇表中每个单词或者标记在该文件中对应功能块中出现的频次,上述简单词汇表计算的词频如下:
S2-3:构建词袋向量,将词频统计结果表示为词袋向量,词袋向量是一个稀疏向量,每个维度对应词汇表中的一个单词或标记,数值表示该单词在代码文件中出现的频次。上述词频构建出的词袋向量如下:
vector=[1,1,1,1,2,1,1,1,1]
将构建词袋向量的方法应用于一份代码文件多个功能块,组成一个二维矩阵形式的词袋向量:
其中每行为每个功能块(函数)的词袋向量,通过将文本数据转换为词袋向量的二维矩阵表示,可以应用各种机器学习算法或深度学习模型,以进行分类、聚类、信息检索等任务。
由于词袋向量是一个稀疏向量,还需要使用TF-IDF方法对转换后的训练集进行归一化具体如下:
式中,vnorm为归一化后的词袋向量,v为原始的词袋向量,TF为词频,表示单词或标记在代码文件中出现的频率。IDF为逆文本频率,表示单词或标记在整个代码文件中的区分能力,一个单词或标记在较多功能块都出现过,说明该单词或标记的区分度就不是很高,IDF值就较小;反之,若一个单词或标记只在少数功能块出现,说明该单词或标记在别的文档中的重要性就较高,IDF值也就较大。TF和IDF的计算方法如下:
式中,TFi为单词i在一代码文件中出现的频率,ni为单词i在一代码文件中出现的次数,∑jnj为一代码文件中所有单词出现的次数之和,IDFi为单词i的逆文本频率,∑d表示训练集代码文件的总数量,di表示训练集中包含单词i的代码文件数量。通过加权后的TF-IDF得分,可以有效地减少单词或标记分类中的错误率,提高分类准确性和检索效率。上述二维矩阵形式的词袋向量,经过TF-IDF归一化后,结果如下:
由于在词袋模型中,不同的词汇在文本中出现的频率差异很大,使用TF-IDF归一化可以对特征权重进行平衡,降低高频词对模型的影响,提高低频词的重要性,有助于更好地捕捉文本的关键特征;另外,词袋向量通常具有高维度和稀疏性的特点,通过TF-IDF归一化,可以将特征向量中的非零值缩放到一定范围内,减小特征向量的取值范围,从而降低向量的稀疏性,提高模型的计算效率。
S3:构建用于恶意代码检测的卷积神经网络模型,如图2所示所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络,所述卷积网络包括三个使用残差结构的卷积块,用于提取词袋向量特征,所述池化网络用于降低卷积网络输出的特征矩阵的维度,所述全连接网络用于对输入的特征向量进行分类。如图3所示,所述使用残差结构的卷积块将输入的词袋向量复制为两个子集,第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后,与第二子集相加,相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作,本实施例中,每个卷积块中的卷积核大小设置为3×3。
残差结构的卷积块通过将输入信号与卷积层输出信号进行直接相加,允许模型将前一层的特征与后一层的特征相加,从而使信息传播更顺畅,这有助于解决梯度消失或梯度爆炸问题,同时提高网络的深度和性能。
上述TF-IDF归一化后的二维矩阵依序经过卷积网络中三个卷积块的卷积操作,输出特征矩阵:
池化网络对输入的特征矩阵进行最大池化,最大池化的池化核大小为2×2、步幅为2,用于降低特征矩阵的维度,输出一维的特征向量:
[0.215684,0.541827,0.625148,...,0.785249]
一维的特征向量输入全连接网络进行分类,全连接网络如图4所示,v1~vn为输入层,n对应为一维特征向量的个数;u1~un为隐藏层,隐藏层可设置为多层,a1、a2为输出层,对应分类分别为恶意文件及正常文件的得分。一个典型的输出如下:
[0.851479,0.005874]
该输出对应的恶意文件得分为0.851479,正常文件的得分为0.005874,所检测的文件将被标记为恶意文件。
具体的,所述全连接网络的输出结果可以表示为:
y=Wx+b
式中,y是全连接网络的输出结果,W是全连接网络的权重矩阵,x是输入全连接网络的特征向量,b是偏置向量,W的维度为(nout,nin),其中nout是输出神经元的数量,nin是输入全连接网络特征向量的长度。在卷积神经网络的训练过程中,不断迭代求解W与b。
S4:使用所述训练集中的词袋向量对卷积神经网络模型进行训练,使用所述测试集评估出最佳模型。
本实施例中,对训练结果的评估采用F0.5分数,将F0.5分数首次大于80的模型作为最佳模型。F0.5分数相比于其他F分数(如F1分数)更加关注精确率,在恶意代码检测的任务中,精确率比召回率更为重要,可以有效减少误报的影响,使用F0.5分数能够使模型更加关注于精确率的提升,对于强调模型的准确性和可靠性是有益的。
所述F0.5分数的计算公式如下:
式中,Precision表示精确率,Recall表示召回率,计算方法如下:
式中,TP表示真正例(True Positive),即将输入的特征向量预测为正样本,并且预测正确;FP表示假正例(False Positive),即将输入的特征向量预测为负样本,并且预测正确;FN表示假反例(False Negative),即将输入的特征向量预测为负样本,并且预测错误。
S5:使用词袋模型将待检测代码文件转换后输入至所述最佳模型,最佳模型输出待检测代码文件的类别。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (8)

1.基于卷积神经网络的恶意代码检测方法,其特征在于,包括以下步骤:
S1:收集代码数据集并标注,所述代码数据集包括恶意代码文件及正常代码文件,所述标注的内容为代码文件的类别,包括恶意文件及正常文件,将标注后的代码数据集按设定的数量比例划分为训练集和测试集;
S2:使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量,采用TF-IDF方法将转换后的训练集进行归一化;
S3:构建用于恶意代码检测的卷积神经网络模型,所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络,所述卷积网络使用残差结构的卷积块,用于提取词袋向量特征,所述池化网络用于降低卷积网络输出的特征矩阵的维度,所述全连接网络用于对输入的特征向量进行分类;
S4:使用所述训练集中的词袋向量对卷积神经网络模型进行训练,使用所述测试集评估出最佳模型;
S5:使用词袋模型将待检测代码文件转换后输入至所述最佳模型,最佳模型输出待检测代码文件的类别。
2.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述卷积网络将输入的词袋向量复制为两个子集,第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后,与第二子集相加,相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作。
3.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述TF-IDF方法对转换后的训练集进行归一化具体如下:
式中,vnorm为归一化后的词袋向量,v为原始的词袋向量,TF为词频,表示单词在代码文件中出现的频率,IDF为逆文本频率,表示单词在代码文件中区分力指标;TF和IDF的计算方法如下:
式中,TFi为单词i在一代码文件中出现的频率,ni为单词i在一代码文件中出现的次数,∑jnj为一代码文件中所有单词出现的次数之和,IDFi为单词i的逆文本频率,∑d表示训练集代码文件的总数量,di表示训练集中包含单词i的代码文件数量。
4.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述步骤S4对训练结果的评估采用F0.5分数,将F0.5分数首次大于80的模型作为最佳模型。
5.根据权利要求4所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述F0.5分数的计算公式如下:
式中,Precision表示精确率,Recall表示召回率,计算方法如下:
式中,TP表示真正例,FP表示假正例,FN表示假反例。
6.根据权利要求1或2所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述卷积网络的卷积核大小设置为3×3。
7.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述池化网络采用池化核大小为2×2、步幅为2的最大池化方法。
8.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法,其特征在于,所述全连接网络的输出结果可以表示为:
y=Wx+b
式中,y是全连接网络的输出结果,W是全连接网络的权重矩阵,x是输入全连接网络的特征向量,b是偏置向量,W的维度为(nout,nin),其中nout是输出神经元的数量,nin是输入全连接网络特征向量的长度。
CN202310840709.1A 2023-07-10 2023-07-10 基于卷积神经网络的恶意代码检测方法 Pending CN116975863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310840709.1A CN116975863A (zh) 2023-07-10 2023-07-10 基于卷积神经网络的恶意代码检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310840709.1A CN116975863A (zh) 2023-07-10 2023-07-10 基于卷积神经网络的恶意代码检测方法

Publications (1)

Publication Number Publication Date
CN116975863A true CN116975863A (zh) 2023-10-31

Family

ID=88472240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310840709.1A Pending CN116975863A (zh) 2023-07-10 2023-07-10 基于卷积神经网络的恶意代码检测方法

Country Status (1)

Country Link
CN (1) CN116975863A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300765A1 (en) * 2008-05-27 2009-12-03 Deutsche Telekom Ag Unknown malcode detection using classifiers with optimal training sets
CN110704840A (zh) * 2019-09-10 2020-01-17 中国人民公安大学 一种基于卷积神经网络cnn的恶意软件检测方法
WO2020057413A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
WO2020164267A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN112149405A (zh) * 2020-09-28 2020-12-29 西安工程大学 一种基于卷积神经网络的程序编译错误信息特征提取方法
WO2021098620A1 (zh) * 2019-11-21 2021-05-27 中国科学院深圳先进技术研究院 一种文件碎片分类方法及系统
US20210319179A1 (en) * 2017-08-14 2021-10-14 Dathena Science Pte. Ltd. Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection
CN113515742A (zh) * 2020-04-12 2021-10-19 南京理工大学 基于行为语义融合萃取的物联网恶意代码检测方法
CN114548116A (zh) * 2022-02-25 2022-05-27 杭州电子科技大学 一种基于语序与语义联合分析的中文文本检错方法及系统
US20220172028A1 (en) * 2020-12-02 2022-06-02 Samsung Electronics Co., Ltd. Method and apparatus with neural network operation and keyword spotting

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300765A1 (en) * 2008-05-27 2009-12-03 Deutsche Telekom Ag Unknown malcode detection using classifiers with optimal training sets
US20210319179A1 (en) * 2017-08-14 2021-10-14 Dathena Science Pte. Ltd. Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection
WO2020057413A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
WO2020164267A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN110704840A (zh) * 2019-09-10 2020-01-17 中国人民公安大学 一种基于卷积神经网络cnn的恶意软件检测方法
WO2021098620A1 (zh) * 2019-11-21 2021-05-27 中国科学院深圳先进技术研究院 一种文件碎片分类方法及系统
CN113515742A (zh) * 2020-04-12 2021-10-19 南京理工大学 基于行为语义融合萃取的物联网恶意代码检测方法
CN112149405A (zh) * 2020-09-28 2020-12-29 西安工程大学 一种基于卷积神经网络的程序编译错误信息特征提取方法
US20220172028A1 (en) * 2020-12-02 2022-06-02 Samsung Electronics Co., Ltd. Method and apparatus with neural network operation and keyword spotting
CN114548116A (zh) * 2022-02-25 2022-05-27 杭州电子科技大学 一种基于语序与语义联合分析的中文文本检错方法及系统

Similar Documents

Publication Publication Date Title
Georgakopoulos et al. Convolutional neural networks for toxic comment classification
Xie et al. Sql injection detection for web applications based on elastic-pooling cnn
US20200279105A1 (en) Deep learning engine and methods for content and context aware data classification
CN115529166A (zh) 基于多源数据的网络安全扫描风险管控系统及其方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN113360912A (zh) 恶意软件检测方法、装置、设备及存储介质
CN112651025A (zh) 一种基于字符级嵌入编码的webshell检测方法
Halim et al. Recurrent neural network for malware detection
CN115473726A (zh) 一种识别域名的方法及装置
CN111737694B (zh) 一种基于行为树的恶意软件同源性分析方法
Athavale et al. Predicting algorithm classes for programming word problems
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN117034112A (zh) 一种基于样本增强与对比学习的恶意网络流量分类方法
Bhagat et al. A novel approach based on fully connected weighted bipartite graph for zero-shot learning problems
CN116975863A (zh) 基于卷积神经网络的恶意代码检测方法
Ambai et al. SPADE: scalar product accelerator by integer decomposition for object detection
CN117237688A (zh) 一种基于融合特征的apt恶意样本攻击组织溯源方法
Uhlig et al. Combining AI and AM–Improving approximate matching through transformer networks
Rahim et al. Hyper-Tuned Convolutional Neural Networks for Authorship Verification in Digital Forensic Investigations.
CN113821840A (zh) 基于Bagging的硬件木马检测方法、介质、计算机
Khan et al. Fake news classification using machine learning: Count vectorizer and support vector machine
Khan et al. Towards Fairness in Multimodal Scene Graph Generation: Mitigating Biases in Datasets, Knowledge Sources and Models.
CN113282746A (zh) 一种新型网络媒体平台变体评论对抗文本生成方法
Uddagiri et al. Authorship Identification Through Stylometry Analysis Using Text Processing and Machine Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination