CN113901472B - 一种双粒度轻量级的漏洞代码切片质量评估方法 - Google Patents

一种双粒度轻量级的漏洞代码切片质量评估方法 Download PDF

Info

Publication number
CN113901472B
CN113901472B CN202111047801.XA CN202111047801A CN113901472B CN 113901472 B CN113901472 B CN 113901472B CN 202111047801 A CN202111047801 A CN 202111047801A CN 113901472 B CN113901472 B CN 113901472B
Authority
CN
China
Prior art keywords
code
evaluation
slice
lightweight
vulnerability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111047801.XA
Other languages
English (en)
Other versions
CN113901472A (zh
Inventor
张炳
文峥
赵宇轩
赵旭阳
任家东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202111047801.XA priority Critical patent/CN113901472B/zh
Publication of CN113901472A publication Critical patent/CN113901472A/zh
Application granted granted Critical
Publication of CN113901472B publication Critical patent/CN113901472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种双粒度轻量级的漏洞代码切片质量评估方法,属于信息安全技术领域,包括以下步骤:分类、预处理漏洞代码切片样本;使用窗口的单词、字符不同粒度,分割代码切片;建立评估特征向量;计算代码切片统计特征,建立切片数据集;建立轻量级评估模型;将切片数据集输入到轻量级评估模型,输出评估特征及评估指标。本发明通过单词、字符级别多种大小窗口分割代码切片,使用统计特征构建漏洞检测向量空间,提取代码切片中内隐的漏洞特征,解决了基于代码切片的漏洞检测技术中存在的未登录词嵌入问题,构建异质集成的轻量级评估模型,输出评估特征与多维评估指标,替代传统技术中的黑盒模型,提高了研究人员代码切片方法的研发、迭代效率。

Description

一种双粒度轻量级的漏洞代码切片质量评估方法
技术领域
本发明涉及信息安全技术领域,尤其是一种双粒度轻量级的漏洞代码切片质量评估方法。
背景技术
漏洞代码切片,通过分解大规模项目源码为仅含有漏洞相关代码的较小代码切片,消除复杂软件项目中不相关源码对漏洞检测结果的干扰。漏洞代码切片新方法的有效性需要经过模型评估来证明。
现有漏洞检测场景中,代码切片方法评估技术分为编码模型评估技术、机器学习模型评估技术、深度学习模型评估技术三类:编码模型评估技术主要使用word2vec、词袋、TF-IDF等模型;机器学习模型评估技术主要使用支持向量机、随机森林、朴素贝叶斯等模型;深度学习模型评估技术主要使用循环神经网络、长短期记忆网络、双向长短期记忆网络等模型。
现有漏洞代码切片质量评估技术存在的主要问题如下:
1、代码切片信息抽取不彻底:支持向量机、随机森林等传统机器学习模型收敛速度快、内存占用小。但是,文本形式的代码切片需要经过复杂的词嵌入过程才能作为此类模型的输入。ELMo、Bert等深度学习解决技术自身集成了词嵌入过程,但训练需要大量标注数据与高性能计算的支持,使用时也需投入一定的模型微调时间。
2、技术复杂度高且泛化能力差:解决词嵌入问题是发明漏洞代码切片质量评估技术的前提。解决未登录词OOV问题是解决代码词嵌入问题的关键。OOV问题为:在实际漏洞检测场景中,若代码序列中出现了训练数据集中未出现过的单词,将出现编码失败错误。若建立包含所有标志符的代码语料库,编程语言中的自定义标识符,将导致代码语料库无限大,出现词表爆炸问题。若使用固定标识符替代不常见词汇,会进一步恶化OOV问题。若为每个漏洞代码切片方法评估任务人工定制代码语料库,会导致较高的技术复杂度与极差的泛化能力,代码切片研究者可能要承担较重的研究负荷。
3、模型评估过程开环无反馈:假设代码切片中出现代表文件名称的自定义标识符“GPFilename”。传统的深度学习模型可能将该文件名分解为“GP、Fil、en、ames”,或直接将该标识符映射为“Var_n”。其技术手段牺牲了原代码的可解释性,丢失了代码切片的语义信息,研究人员只能基于黑盒的评估模型判断新切片方法是否有效,却无法获取新方法为什么有效、如何改进新方法的相关信息,难以明确人工验证与改进方向。
发明内容
本发明需要解决的技术问题是提供一种双粒度轻量级的漏洞代码切片质量评估方法,输出评估特征及评估指标,提高了研究人员代码切片方法的研发、迭代效率。
为解决上述技术问题,本发明所采用的技术方案是:
一种双粒度轻量级的漏洞代码切片质量评估方法,包括以下步骤:
步骤1,分类、预处理漏洞代码切片样本;
步骤2,使用若干个双粒度窗口,分割步骤1获取的代码切片;
步骤3,根据步骤2分割后的代码切片建立评估特征向量;
步骤4,根据步骤3获得的评估特征向量计算代码切片统计特征,建立切片数据集;
步骤5,建立轻量级评估模型;
步骤6,将步骤4获得的切片数据集输入到步骤5建立的轻量级评估模型,输出评估特征及评估指标。
本发明技术方案的进一步改进在于:步骤1中,分类依据为漏洞代码切片包含的漏洞类型,其中,不包含漏洞也作为一种类型;
所述预处理漏洞代码切片样本的方法为删除代码中所有运算符,并将代码切片中所有标识符驼峰化。
本发明技术方案的进一步改进在于:步骤1中,代码切片语料长度为A,A为大于等于50小于等于200的正整数。
本发明技术方案的进一步改进在于:步骤2中,所述双粒度窗口包括字符级别窗口和单词级别窗口。
本发明技术方案的进一步改进在于:所述字符级别的窗口大小为B字符,数量为H;所述单词级别的窗口大小为C单词,数量为H;其中,B为大于等于3小于等于5的正整数,C为大于等于1小于等于3的正整数,H为大于等于2小于等于3的正整数。
本发明技术方案的进一步改进在于:步骤3中,建立评估特征向量,包括以下子步骤:
3.1根据字符窗口分割后的代码切片,使用统计模型,计算得到字符重要性度量值,构建字符关键词集合,字符关键词数量为D;
3.2根据单词窗口分割后的代码切片,使用与子步骤3.1中相同的统计模型,计算得到单词重要性度量值,构建单词关键词集合,单词关键词数量为E;
3.3根据字符关键词集合与单词关键词集合,使用水平拼接的特征融合技术,建立评估特征向量,其中前D个分量为字符关键词集合中元素,后E个分量为单词关键词集合中元素。
本发明技术方案的进一步改进在于:所述字符关键词数量D,D为大于等于1000小于等于1500的正整数;所述单词关键词数量E,E为大于等于100小于等于150的正整数。
本发明技术方案的进一步改进在于:步骤4中,根据评估特征向量,使用代码切片样本匹配,若评估特征向量的分量出现在样本中,则分量对应位置记为F,F为正实数,使用与步骤3.1中相同的统计模型,计算其在样本中的重要性度量值,作为F,反之,记为0,生成序列;含有漏洞的样本在序列后追加1,反之,追加0,作为样本特征数据;所有代码切片样本的样本特征数据,作为切片数据集。
本发明技术方案的进一步改进在于:步骤5中,选择不同种类基础机器学习分类器并联作为中间层,其中基础机器学习分类器数量为G,G为大于等于2小于等于5的正整数,选择一种线性的基础机器学习分类器作为输出层,将中间层与输出层串联,作为轻量级评估模型。
本发明技术方案的进一步改进在于:步骤6中,切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入,输出评估特征为评估特征向量,评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1。
由于采用了上述技术方案,本发明取得的技术进步是:
1、本发明通过字符、单词双层次提取不同粒度、不同窗口大小的代码切片特征,保留代码切片中隐含的漏洞信息并提升相关语义依赖的提取效果。
2、本发明在词嵌入阶段,使用统计模型计算得到的单词与字符重要性度量,构建代码切片向量,绕过了传统技术需要解决的OOV问题,提升代码切片向量表征过程效率。
3、本发明在嵌入后数据处理阶段,通过不同基础分类器的优势和异构性,提高评估模型的预测精度和泛化能力。
4、本发明通过输出代码切片评估中模型依据的评估特征向量,确定正确分类代码切片的突出特征,提高评估模型可解释性,指导研究人员进一步删减代码切片中仍存的干扰项,优化切片方法。
附图说明
图1是本发明评估方法流程图;
图2是本发明中建立评估特征向量的子流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步详细说明:
如图1所示,一种双粒度轻量级的漏洞代码切片质量评估方法,具体包括以下步骤:
步骤1,分类、预处理漏洞代码切片样本。
分类依据为漏洞代码切片包括的漏洞类型,其中,不包含漏洞也作为一种类型;预处理漏洞代码切片样本的方法为删除代码中所有运算符,并将代码切片中所有标识符驼峰化;代码切片语料长度为A,A为大于等于50小于等于200的正整数。
本实施例是从NVD数据集与SARD数据集,使用Vuldeepecker切片方法,得到含有缓存区溢出漏洞的代码切片10400个,不含漏洞的代码切片39753个,共计50153个。
步骤2,使用若干个双粒度窗口分割代码切片。
双粒度窗口包括不同大小的字符级别窗口、单词级别窗口,其中,字符级别的窗口大小为B字符,数量为H。单词级别的窗口大小为C单词,数量为H,其中,B为大于等于3小于等于5的正整数,C为大于等于1小于等于3的正整数,H为大于等于2小于等于3的正整数。
本实施例中使用字符级别的窗口3个,窗口大小分别为3、4、5个字符;使用单词级别的窗口3个,窗口大小分别为1、2、3个单词。
若存在代码行“memcopy(bufstrlen)”,则窗口大小分别为1、2、3的单词级窗口分割后的代码行依次为:“memcopy,(,buf,str,len,)”、“memcopy(,(buf,bufstr,strlen,len)”、“memcopy(buf,(bufstr,bufstrlen,strlen)”。
窗口大小分别为3、4、5的字符级窗口分割后的代码行依次为:“mem,cop,y(b,ufs,tr l,en)”、“memc,opy(,buf s,tr le,n)”、“memco,py(bu,f str l,en)”。
步骤3,建立评估特征向量。
如图2所示,建立评估特征向量,包括以下子步骤:
3.1根据字符窗口分割后的代码切片,使用统计模型,计算得到字符重要性度量值,构建字符关键词集合,字符关键词数量为D,D为大于等于1000小于等于1500的正整数。
本实施例中,根据字符窗口分割后的代码切片,使用TF-IDF统计模型,计算得到字符逆文档频率,作为字符重要性度量值。使用字符重要性度量值排序分割结果后,前1500个字符,作为关键词集合。
3.2根据单词窗口分割后的代码切片,使用与子步骤3.1中相同的统计模型,计算得到单词重要性度量值,构建单词关键词集合,单词关键词数量为E,E为大于等于100小于等于150的正整数。
本实施例中根据单词窗口分割后的代码切片,使用与TF-IDF统计模型,计算得到单词逆文档频率,作为单词重要性度量值。使用单词重要性度量值排序分割结果后,前150个单词,作为单词关键词集合。
3.3根据字符关键词集合与单词关键词集合,使用水平拼接的特征融合技术,建立评估特征向量,其中前D个分量为字符关键词集合中元素,后E个分量为单词关键词集合中元素。
本实施例中,根据字符关键词集合与单词关键词集合,使用水平拼接的特征融合技术,建立评估特征向量,其中前1500个分量为字符关键词集合中元素,后150个分量为单词关键词集合中元素。
步骤4,计算代码切片统计特征,建立切片数据集。
根据评估特征向量,使用代码切片样本匹配,若评估特征向量的分量出现在样本中,则分量对应位置记为F,F为正实数,使用与步骤3.1中相同的统计模型,计算其在样本中的重要性度量值,作为F,反之,记为0,生成序列;含有漏洞的样本在序列后追加1,反之,追加0,作为样本特征数据;所有代码切片样本的样本特征数据,作为切片数据集。
本实施例中根据评估特征向量,使用50153个代码切片样本匹配,若评估特征向量的分量出现在样本中,则分量对应位置记为该分量在此代码切片样本中的TF-IDF值,反之,记为0,生成序列;含有漏洞的10400个样本在序列后追加1,反之,追加0,作为样本特征数据;50153个代码切片样本的样本特征数据,组成切片数据集。
步骤5,建立轻量级评估模型。
选择不同种类基础机器学习分类器并联作为中间层,其中基础机器学习分类器数量为G,G为大于等于2小于等于5的正整数,选择一种线性的基础机器学习分类器作为输出层,将中间层与输出层串联,作为轻量级评估模型。
本实施例中选择逻辑回归、决策树、支持向量机、随机森林四种基础机器学习分类器并联作为中间层,选择逻辑回归分类器作为输出层,将中间层与输出层串联,作为轻量级评估模型。
步骤6,将切片数据集输入到轻量级评估模型,输出评估特征及评估指标。
切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入,输出评估特征为评估特征向量,评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1,其计算公式为:
其中,TP表示含有漏洞的代码切片被分类器检测成功的数量,FP表示不含漏洞的代码切片被分类器误检测的数量,TN表示为不含漏洞的代码切片被分类器正确识别的数量,FN表示为含有漏洞的代码切片未被分类器识别的数量。
本实施例中输出评估指标为误报率FPR为2.7%、漏报率FNR为11.4%、召回率Recall为88.6%、准确率P为92.1%、F1值F1为90.3%。缓存区溢出漏洞代码切片输出的部分评估特征为:“bufstrlen”“bufstrlenbuf”“char malloc”“char array size”“free”“fun2 strlen”。
综上所述,本发明通过单词、字符级别多种大小窗口分割代码切片,使用统计特征构建漏洞检测向量空间,提取代码切片中内隐的漏洞特征,解决了基于代码切片的漏洞检测技术中存在的未登录词嵌入问题,构建异质集成的轻量级评估模型,输出评估特征与多维评估指标,替代传统技术中的黑盒模型,提高了研究人员代码切片方法的研发、迭代效率。

Claims (8)

1.一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:包括以下步骤:
步骤1,分类、预处理漏洞代码切片样本;
步骤2,使用若干个双粒度窗口,分割步骤1获取的代码切片;
步骤3,根据步骤2分割后的代码切片建立评估特征向量;
步骤3中,建立评估特征向量,包括以下子步骤:
3.1根据字符窗口分割后的代码切片,使用统计模型,计算得到字符重要性度量值,构建字符关键词集合,字符关键词数量为D;
3.2根据单词窗口分割后的代码切片,使用与子步骤3.1中相同的统计模型,计算得到单词重要性度量值,构建单词关键词集合,单词关键词数量为E;
3.3根据字符关键词集合与单词关键词集合,使用水平拼接的特征融合技术,建立评估特征向量,其中前D个分量为字符关键词集合中元素,后E个分量为单词关键词集合中元素;
步骤4,根据步骤3获得的评估特征向量计算代码切片统计特征,建立切片数据集;
步骤4中,根据评估特征向量,使用代码切片样本匹配,若评估特征向量的分量出现在样本中,则分量对应位置记为F,F为正实数,使用与步骤3.1中相同的统计模型,计算其在样本中的重要性度量值,作为F,反之,记为0,生成序列;含有漏洞的样本在序列后追加1,反之,追加0,作为样本特征数据;所有代码切片样本的样本特征数据,作为切片数据集;
步骤5,建立轻量级评估模型;
步骤6,将步骤4获得的切片数据集输入到步骤5建立的轻量级评估模型,输出评估特征及评估指标。
2.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:步骤1中,分类依据为漏洞代码切片包含的漏洞类型,其中,不包含漏洞也作为一种类型;
所述预处理漏洞代码切片样本的方法为删除代码中所有运算符,并将代码切片中所有标识符驼峰化。
3.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:步骤1中,代码切片语料长度为A,A为大于等于50小于等于200的正整数。
4.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:步骤2中,所述双粒度窗口包括字符级别窗口和单词级别窗口。
5.根据权利要求4所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:所述字符级别的窗口大小为B字符,数量为H;所述单词级别的窗口大小为C单词,数量为H;其中,B为大于等于3小于等于5的正整数,C为大于等于1小于等于3的正整数,H为大于等于2小于等于3的正整数。
6.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:所述字符关键词数量D,D为大于等于1000小于等于1500的正整数;所述单词关键词数量E,E为大于等于100小于等于150的正整数。
7.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:步骤5中,选择不同种类基础机器学习分类器并联作为中间层,其中基础机器学习分类器数量为G,G为大于等于2小于等于5的正整数,选择一种线性的基础机器学习分类器作为输出层,将中间层与输出层串联,作为轻量级评估模型。
8.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法,其特征在于:步骤6中,切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入,输出评估特征为评估特征向量,评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1。
CN202111047801.XA 2021-09-08 2021-09-08 一种双粒度轻量级的漏洞代码切片质量评估方法 Active CN113901472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111047801.XA CN113901472B (zh) 2021-09-08 2021-09-08 一种双粒度轻量级的漏洞代码切片质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111047801.XA CN113901472B (zh) 2021-09-08 2021-09-08 一种双粒度轻量级的漏洞代码切片质量评估方法

Publications (2)

Publication Number Publication Date
CN113901472A CN113901472A (zh) 2022-01-07
CN113901472B true CN113901472B (zh) 2023-08-08

Family

ID=79188809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111047801.XA Active CN113901472B (zh) 2021-09-08 2021-09-08 一种双粒度轻量级的漏洞代码切片质量评估方法

Country Status (1)

Country Link
CN (1) CN113901472B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN111611583A (zh) * 2020-04-08 2020-09-01 国家计算机网络与信息安全管理中心 恶意代码同源性分析方法和恶意代码同源性分析装置
CN111753303A (zh) * 2020-07-29 2020-10-09 哈尔滨工业大学 一种基于深度学习和强化学习的多粒度代码漏洞检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11892897B2 (en) * 2017-11-03 2024-02-06 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for predicting which software vulnerabilities will be exploited by malicious hackers to prioritize for patching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN111611583A (zh) * 2020-04-08 2020-09-01 国家计算机网络与信息安全管理中心 恶意代码同源性分析方法和恶意代码同源性分析装置
CN111753303A (zh) * 2020-07-29 2020-10-09 哈尔滨工业大学 一种基于深度学习和强化学习的多粒度代码漏洞检测方法

Also Published As

Publication number Publication date
CN113901472A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
Chen et al. Scalable graph neural networks via bidirectional propagation
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN112579477A (zh) 一种缺陷检测方法、装置以及存储介质
CN109919368B (zh) 一种基于关联图的法条推荐预测系统及方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
Jain et al. Machine Learning based Fake News Detection using linguistic features and word vector features
CN112560036B (zh) 一种基于神经网络与深度学习的c/c++漏洞静态检测方法
CN111143842A (zh) 一种恶意代码检测方法及系统
Jerzak et al. An improved method of automated nonparametric content analysis for social science
CN107169572A (zh) 一种基于Mahout的机器学习服务组装方法
US20220114464A1 (en) Systems and methods for counterfactual explanation in machine learning models
Duan et al. LIMTopic: A framework of incorporating link based importance into topic modeling
Koutrika et al. Generating reading orders over document collections
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
Minervini et al. Leveraging the schema in latent factor models for knowledge graph completion
Wang et al. Robust supervised topic models under label noise
Bock et al. Online time series anomaly detection with state space gaussian processes
CN113901472B (zh) 一种双粒度轻量级的漏洞代码切片质量评估方法
Menon et al. Document classification with hierarchically structured dictionaries
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Zicari et al. Learning Deep Fake-News Detectors from Scarcely-Labelled News Corpora.
Azmi et al. RCAR framework: building a regularized class association rules model in a categorical data space
Golam Sohrab et al. EDGE2VEC: Edge representations for large-scale scalable hierarchical learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant