CN116723005A

CN116723005A - 多态隐藏下的恶意代码隐式情报追踪方法及系统

Info

Publication number: CN116723005A
Application number: CN202310579773.9A
Authority: CN
Inventors: 李柯; 付才; 刘泓玏; 马铭芮; 孙思琪; 韩兰胜; 何帅; 江帅; 郭晓威
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-08

Abstract

本发明公开了一种多态隐藏下的恶意代码隐式情报追踪方法及系统，是一种基于跨域隐式情报分析对恶意代码作者进行身份溯源的方法，并使用此方法构建了一个系统，可以在截取到恶意代码的前提下，追踪分析此代码可能的来源仓库和作者，并能通过人工智能算法提供作者的身份画像信息，从而为打击网络犯罪，追踪黑客团伙提供线索。通过本系统还能对国际知名网络安全研究组织、黑客技术团队在网络平台的活动进行监控，起到对新型网络攻击及时预警和防范的作用。

Description

多态隐藏下的恶意代码隐式情报追踪方法及系统

技术领域

本发明属于信息安全领域，更具体地，设计一种多态隐藏下的恶意代码隐式情报追踪方法及系统。

背景技术

恶意代码是一种常见的网络威胁，可以对计算机系统和网络造成严重破坏。通过对恶意代码情报追踪，可以及时了解到恶意代码的种类、传播途径、攻击目标等信息，从而可以做到追根溯源，保护信息系统和网络的安全。目前，恶意代码情报追踪主要依赖于人工情报分析和自动化情报收集、处理和分析技术。

迄今为止已有一些恶意代码情报数据库供给人们用于情报分析。AbuselPDB是一个致力于帮助打击黑客、垃圾邮件发送者与互联网滥用的项目。为网站管理员、系统管理员和其他各方提供中心黑名单，提交查找与恶意活动相关的IP地址来帮助网络更加安全。MetaDefender Cloud云威胁情报源包含最新的恶意软件哈希签名，定时提供每日更新及恶意软件的检测和报告，提供可操作、及时的威胁情报。CLEAN MX是来自德国的可检索恶意代码库，提供恶意代码URL地址、ip以及状态等信息。然而，人工分析耗时耗力。

一些工作开发了自动化情报提取算法用于追踪。Twiti是一个利用自然语言处理和机器学习技术从推特平台上提取恶意软件入侵情报的算法。RopGen是一个基于梯度增强和数据增强技术，利用代码作者风格对代码作者进行归属性判断的算法。自动化情报取证工具繁多，但是几乎没有从隐式空间对恶意代码背后的信息进行追踪的工作。

隐式空间指社交空间、人格空间、娱乐空间等代码空间之外的社会学空间。恶意代码隐式情报追踪即指可以从比代码行为更深一层次的社会学特征上对恶意代码植入者进行细致的轮廓画像。更细致的情报信息，对恶意行为追查具有很大的意义。例如其身份、地理位置、行为习惯等可以作为犯罪证据和线索，帮助执法机构追溯和定罪恶意代码作者。了解其行为动机，攻击目标、攻击手段等特征，有助于构建案件的法律论据和证据链，支持对恶意代码作者的合法起诉。这些属性信息均对于打击网络犯罪、保护信息安全具有重要意义。

隐式空间信息在代码空间难以直接观察或获得。缺乏标准性和一致性，不同恶意代码作者有不同的编程风格、编程习惯、心理因素等，这导致了隐式空间信息在代码空间中呈现多样性和复杂性。隐式空间信息往往不完整，可能只在某些部分或特定情境下体现，而在其他情景下并不显现，这导致了需要深入分析恶意代码信息，并综合判断。目前并没有一套成型的方法论可以对隐式空间情报信息进行自动化获取。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于跨域隐式情报分析，对恶意代码作者进行身份溯源的方法和系统，其目的在于为追溯利用恶意代码进行非法活动的网络犯罪分子提供线索，通过尽可能多的收集同一用户在众多网络平台上留下的活动数据，并借助人工智能进行身份画像，就有可能获得目标的姓名、性别、国籍、年龄范围、学历、职业、社会地位、宗教信仰等多个维度的信息，从而为锁定网络犯罪分子提供重要线索。

为了实现上述方法，按照本发明的第一方面，提供了一种多态隐藏下的恶意代码隐式情报追踪方法，基于跨域隐式情报分析对恶意代码作者进行身份溯源，该方法需要尽可能多的收集同一用户在多个网络平台上留下的活动数据，然后利用这些数据进行身份画像，具体来说包括以下步骤：

S1.整理在网络犯罪活动中截获的恶意代码，包括各种编程语言的源代码和二进制可执行文件，分门别类进行储存；

S2.将上述恶意代码的抽象语法树(Abstract Syntax Tree，AST)、程序控制流图(Program Control Flow Graph，CFG)、数据流图(Data Flow Graph，DFG)和自然代码序列(Natural Code Sequence，NCS)四种抽象图结构融合转化为张量表示，然后采用神经网络进行节点信息嵌入，全面提取代码特征；

S3.在基于开源社区建立的数据库中，检索与截获到的恶意代码相似的样本，追踪其仓库来源和仓库作者，锁定其开源社区账号；

S4.收集账号拥有者在开源平台上的活动数据，同时根据开源社区平台提供的其他网络平台的关联信息，跳转到该用户在其他平台上的账号主页，同样收集其在对应平台上的活动数据；

S5.汇总步骤S4中收集的用户在各网络平台的活动数据，利用人工智能算法等技术进行数据分析，最终得出该用户的身份画像信息。

进一步地，所述S1中截获恶意代码的方法包括对网络流量的实时监测分析、借助病毒查杀软件、逆向分析技术和日志分析等，通过综合上述方法检测分析的结果，将得到的所有编程语言类型的可疑源代码和二进制可执行文件分别储存，备S2中提取特征使用。

进一步地，所述S3中基于开源社区建立的数据库，主要包含恶意代码样本及通过S2提取的特征、恶意代码的功能描述、恶意代码来源仓库的地址、恶意样本来源仓库所有者的账号地址、该账号用户(下统称为“恶意代码作者”)上一次被检索时的通过S4和S5所得的身份画像信息。

更进一步地，所述S3中数据库的建立方式如下：

(1)在开源代码社区Github所有仓库中按照Star数目进行排序，从高到底针对每个仓库进行分析，判断其是否为源代码仓库，是则进入下一步，否则忽略当前仓库进入下一个仓库分析；

(2)收集目标仓库所有的描述性信息和文件名称，通过分词等技术抽取特征签名，再使用词嵌入、词袋等模型判断仓库是否属于恶意代码仓库，是则进入下一步，否则忽略当前仓库进入下一个仓库分析；

(3)对当前恶意仓库中所有恶意代码样本文件，通过S2提取特征，并生成恶意代码的简要功能描述，同时记录当前仓库地址、仓库所有者账号地址；

(4)通过S4收集恶意代码作者在各网络平台上的活动数据，再通过S5对其进行第一次身份溯源和身份画像分析；

(5)将身份溯源和画像结果与(3)中提取的恶意代码特征、恶意代码的功能描述、仓库地址和仓库所有者地址一并保存到数据库，生成一张表，其中每一份恶意样本对应表中的一条记录，每一张表对应数据库中的一位恶意代码作者。

进一步地，所述S4中的网络平台主要包括开源社区(Github、Gitee等)和社交平台(Twitter、Linkedin、Facebook、微博、个人博客等)。

进一步地，所述S5中的分析技术主要包括自然语言处理技术(如文本分类、情感分析、实体识别、主题模型等)和深度学习模型(如词袋模型、词嵌入模型和Transformer等)。

按照本发明的另一个方面，提供了一种基于跨域隐式情报分析对恶意代码作者进行身份溯源的系统，包括存储器和处理器，所述存储器存储有初代恶意样本数据库、对应上述S2-S5的计算机程序模块和整体的恶意代码身份溯源画像系统，所述处理器执行执行所述计算机程序模块时执行本发明第一方面所提供的各项功能。

进一步地，系统的输入可以是S2、S3、S4和S5各模块的输入类型，S2模块输入恶意代码，输出代码特征张量；S3输入代码特征张量，输出数据库匹配结果；S4输入网络平台用户账号主页，输出该用户在上述网络平台上的活动数据；S5输入用户在各网络平台上的活动数据，输出用户的性别、国籍、年龄范围、学历、职业、社会地位、宗教信仰等多个维度的信息，实现对目标的身份溯源和画像。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明提供了一种提供了一种基于跨域隐式情报分析对恶意代码作者进行身份溯源的方法，并使用此方法构建了一个系统，可以在截取到恶意代码的前提下，追踪分析此代码可能的来源仓库和作者，并能通过人工智能算法提供作者的身份画像信息，从而为打击网络犯罪，追踪黑客团伙提供线索。通过本系统还能对国际知名网络安全研究组织、黑客技术团队在网络平台的活动进行监控，起到对新型网络攻击及时预警和防范的作用。

(2)本发明提供的恶意代码特征提取方法，可以有效地结合代码的抽象语法树(Abstract Syntax Tree，AST)、程序控制流图(Program Control Flow Graph，CFG)、数据流图(Data Flow Graph，DFG)和自然代码序列(Natural Code Sequence，NCS)四种抽象图结构的优势，从中提取恶意代码四个方面更加全面的特征，使用这些特征能更好地进行代码相似性的比较，还能减轻存储压力，提高检测速度和准确率。

(3)本发明提供的恶意源代码仓库的识别方法，可以在开源代码社区中持续扩展数据库中的恶意代码样本，不断丰富数据库，不仅能提高恶意代码检测识别的准确率，还能为网络安全研究领域提供高质量的数据集。

(4)本发明提供的针对目标用户的自动化网络活动数据收集方法，通过自然语言处理和机器学习技术，能够自动收集和分析目标用户在网络平台上的活动数据，包括用户的帖子、评论、博客和浏览记录等。与传统的手动收集方法相比，本发明可以大大减少人力投入和时间成本，提高信息收集和处理的效率，为网络安全和犯罪打击等领域提供有益的支持和帮助。

(5)本发明提供的根据用户的网络活动数据对用户进行身份画像的技术，可以更好地利用收集到的目标用户的网络数据，获取大量的用户信息，包括用户的身份信息、兴趣爱好、社交关系等。这些信息可以用于犯罪分析和情报收集等方面，帮助警方和安全机构更好地了解犯罪嫌疑人的背景和行为，从而采取相应的措施进行打击和防范。

附图说明

图1为本发明根据截获到的恶意代码进行情报追踪任务的整体流程图。

图2为本发明使用的高质量数据库的构建方法。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明根据截获到的恶意代码进行情报追踪任务的整体流程图。参阅图1，结合图2，对本实例中根据恶意代码进行隐式情报追踪的方法进行详细说明，方法包括操作S1-操作S4。

操作S1的详细步骤如下：

(1)生成AST：使用Python的AST parser和Tree-sitter，将源代码文件转换为抽象语法树(Abstract Syntax Tree，AST)。AST是源代码的一种树形表示，能够更清晰地展现代码的结构。

(2)提取图结构：在AST的基础上，进一步提取出源代码文件的控制流图(ControlFlow Graph，CFG)、数据依赖图(Data Dependency Graph，DDG)以及命名调用图(Name CallGraph，NCS)。这些图结构能够从不同的角度反映出代码的特性。

(3)生成图张量：将AST、CFG、DDG、NCS四个图结构组合起来，形成源代码的图张量空间特征。这个步骤可以借助张量计算的相关库，如NumPy、TensorFlow等。

(4)门控图张量神经网络层：基于门控神经网络(Gated Recurrent Unit,GRU)算法和张量计算，建立门控图张量神经网络层。这个网络层的输入是图张量，输出是每个图结节点的隐藏层特征。这个步骤需要用到深度学习框架，如PyTorch、TensorFlow等。

(5)图张量卷积神经网络层：基于图卷积神经网络(Graph ConvolutionalNetwork,GCN)深度学习算法和张量计算，建立图张量卷积神经网络层。这个网络层的输入是门控图张量神经网络层的输出，进一步提取图结构节点的语义特征。

操作S2的详细步骤如下：

(1)构建特征搜索索引：为了在数据库中高效地搜索相似的样本记录，首先需要为数据库中的所有样本构建一个特征搜索索引。这可以通过一种称为嵌入(embedding)的技术来实现。具体来说，每个样本的图结构节点的语义特征都会被映射到一个高维空间中的一个点，这个点就是样本的嵌入。嵌入之间的距离可以用来衡量样本之间的相似性。

(2)相似性计算：在特征搜索索引中，根据目标的语义特征计算其与数据库中各个样本的相似性。这通常通过计算目标特征与各个样本特征之间的余弦相似性来完成。这个过程可以通过一个简单的全连接层实现。

(3)阈值筛选：设置一个阈值，只选出与目标的语义特征相似性匹配分数大于等于阈值的样本。这个阈值的设定通常需要通过实验来确定，以保证既能捕获到足够多的相似样本，又能排除掉不够相似的样本。

(4)判断和输出：如果筛选出的相似样本数量不为0，那么就判断目标属于数据库中记录备案过的某种恶意样本。然后输出与之类似的恶意样本的名称、功能描述、仓库来源、仓库作者等信息。

操作S3的详细步骤如下：

(1)账号信息收集：根据操作S2中的结果，锁定目标用户的个人账号主页。通过网络爬虫技术，抓取并解析网页源代码，从中提取用户的基本信息，如用户名、头像、个人介绍等。

(2)社交平台跳转：在个人主页上，可能存在指向其他社交平台的链接，如友链、社交媒体图标等。这些链接可以指向用户在领英(Linkedin)、推特(Twitter)、脸书(Facebook)、微博等平台的账号。我们将这些链接作为跳转的目标。

(3)社交平台数据收集：对于每个跳转的目标，使用网络爬虫技术访问并抓取用户在这些平台上的活动数据。这可能包括个人介绍、发言、评论、分享的图片等。注意，不同的平台可能需要使用不同的爬虫策略，因为这些平台的页面结构、数据格式等可能存在差异。

(4)数据清洗与整理：收集到的数据可能包含一些无用的信息，如广告、重复内容等，需要进行数据清洗。此外，也需要对数据进行整理，例如将图片转换为链接或者缩略图，将文本内容统一为UTF-8编码等。

(5)数据汇总输出：最后，将清洗和整理后的数据以JSON格式进行汇总输出。这种格式的优点是结构清晰，易于机器阅读，也方便人工查看。数据的具体结构可能包括用户ID、用户名、头像链接、个人介绍、发言记录、评论记录、分享的图片链接等字段。

操作S4，训练大规模语言模型LLaMA，利用其在常识推理、语言理解和命名实体识别等方面的能力，根据收集到的信息进行人物画像。具体来说，我们把收集到的信息分为两大类，一类是作者的自我介绍性描述文字，另一类是作者在网络平台上的评论、发言等常规性文字。对于自我介绍性的文字内容，侧重于利用其在命名实体方面的特征，因为一般用户在介绍自己的时候会讲一些与地点、职位、企业、学校、技能等相关的名词，这些命名实体可以有效帮助模型对用户进行画像。而对于常规性自然语言，侧重点在于其语言使用习惯，特别是词汇之间的搭配习惯、句子的构造习惯等，此类信息可以帮助大模型学习群体特征，从而进行用户分类和画像。

操作S4的详细步骤如下：

(1)数据预处理：首先，对收集到的两类信息进行预处理。这包括文本清洗，例如去掉无意义的符号、标点、空格等，以及文本标准化，如统一大小写、数字转换等。此外，可能还需要进行文本分词，把连续的文本划分为词语的序列。

(2)特征提取：对于自我介绍性的描述，利用命名实体识别(Named EntityRecognition，NER)技术，从中提取出用户提到的地点、职位、企业、学校、技能等实体。这些实体信息将作为用户画像的重要特征。对于网络平台上的评论、发言等常规性文字，使用词频统计(TF-IDF)或者词嵌入(Word Embedding)等技术，提取出用户的语言使用习惯，包括词汇搭配习惯、句子结构习惯等。

(3)模型训练：使用预处理和特征提取后的数据，训练大规模语言模型LLaMA。训练的过程可能包括监督学习和无监督学习两个阶段。在监督学习阶段，模型通过标注的数据学习用户的语言模式和实体信息与用户画像的关系。在无监督学习阶段，模型通过大量未标注的数据进一步学习语言模式，并优化模型参数。

(4)模型评估与优化：在模型训练完成后，需要对模型进行评估，以确定其在常识推理、语言理解和命名实体识别等任务上的性能。评估的方法包括交叉验证(CrossValidation)和在独立测试集上的评估。根据评估结果，可能需要进一步调整模型参数或者改进模型结构，以提高模型的性能。

(5)人物画像生成：最后，利用训练好的模型，根据用户的自我介绍性描述和常规性发言，生成用户的人物画像。这可能包括用户的职业、教育背景、技能、兴趣爱好、语言风格等多个维度。

Claims

1.多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，基于跨域隐式情报分析对恶意代码作者进行身份溯源，所述方法尽可能多的收集同一用户在多个网络平台上留下的活动数据，然后利用这些数据进行身份画像，所述方法包括以下步骤：

S2.将上述恶意代码的抽象语法树AST、程序控制流图CFG、数据流图DFG和自然代码序列NCS四种抽象图结构融合转化为张量表示，然后采用神经网络进行节点信息嵌入，全面提取代码特征；

S5.汇总步骤S4中收集的用户在各网络平台的活动数据，利用人工智能算法分析技术进行数据分析，最终得出该用户的身份画像信息。

2.根据权利要求1所述的多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，所述S1中截获恶意代码的方法包括对网络流量的实时监测分析、借助病毒查杀软件、逆向分析技术和日志分析，通过综合上述方法检测分析的结果，将得到的所有编程语言类型的可疑源代码和二进制可执行文件分别储存，以备S2中提取代码特征使用。

3.根据权利要求1所述的多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，所述S3中基于开源社区建立的数据库，主要包含恶意代码样本及通过S2提取的特征、恶意代码的功能描述、恶意代码来源仓库的地址、恶意样本来源仓库所有者的账号地址、该账号用户，下统称为“恶意代码作者”，上一次被检索时的通过S4和S5所得的身份画像信息。

4.根据权利要求3所述的多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，所述S3中数据库的建立方式如下：

(2)收集目标仓库所有的描述性信息和文件名称，通过分词抽取特征签名，再使用词嵌入、词袋模型判断仓库是否属于恶意代码仓库，是则进入下一步，否则忽略当前仓库进入下一个仓库分析；

5.根据权利要求1所述的多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，所述S4中的网络平台主要包括开源社区Github、Gitee和社交平台Twitter、Linkedin、Facebook、微博、个人博客。

6.根据权利要求1所述的多态隐藏下的恶意代码隐式情报追踪方法，其特征在于，所述S5中的分析技术主要包括自然语言处理技术，包括文本分类、情感分析、实体识别、主题模型，和深度学习模型，包括词袋模型、词嵌入模型和Transformer。

7.一种基于跨域隐式情报分析对恶意代码作者进行身份溯源的系统，包括存储器和处理器，所述存储器存储有初代恶意样本数据库、对应上述S2-S5的计算机程序模块和整体的恶意代码身份溯源画像系统，所述处理器执行所述计算机程序模块时执行所述多态隐藏下的恶意代码隐式情报追踪方法所提供的各项功能。

8.根据权利要求7所述的基于跨域隐式情报分析对恶意代码作者进行身份溯源的系统，其特征在于，系统的输入可以是S2、S3、S4和S5各模块的输入类型，S2模块输入恶意代码，输出代码特征张量；S3输入代码特征张量，输出数据库匹配结果；S4输入网络平台用户账号主页，输出该用户在上述网络平台上的活动数据；S5输入用户在各网络平台上的活动数据，输出用户的性别、国籍、年龄范围、学历、职业、社会地位、宗教信仰多个维度的信息，实现对目标的身份溯源和画像。