CN107944265A

CN107944265A - 一种PyPI源中恶意第三方库的检测方法及计算设备

Info

Publication number: CN107944265A
Application number: CN201711241841.1A
Authority: CN
Inventors: 朱铜庆
Original assignee: Beijing Knownsec Information Technology Co Ltd
Current assignee: Beijing Knownsec Information Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-04-20
Anticipated expiration: 2037-11-30
Also published as: CN107944265B

Abstract

本发明公开了一种PyPI源中恶意第三方库的检测方法及计算设备，计算设备与PyPI源服务器通信连接，PyPI源服务器中存储有多个第三方库及关联有各第三方库的当前第三方库列表，该方法包括：从PyPI源服务器获取当前第三方库列表；根据预设的匹配规则，对当前第三方库列表关联的各第三方库进行匹配；将各匹配成功的第三方库标记为恶意第三方库；对各匹配失败的第三方库进行安装文件检测，若安装文件的检测结果指示对应的第三方库存在恶意指令，则将该第三方库标记为恶意第三方库；统计合并标记为恶意第三方库的第三方库，根据合并后的结果进行告警处理。

Description

一种PyPI源中恶意第三方库的检测方法及计算设备

技术领域

本发明涉及计算机网络领域，特别涉及一种PyPI源中恶意第三方库的检测方法及计算设备。

背景技术

对基于Python语言的第三方库的开发者而言，将写好的程序发布在PyPI(PythonPackage Index，Python包索引)源上是一件有意义的事情。在编写Python程序的时候，为了使用简便，往往会在程序中通import package_name命令引入众多第三方库。然而，并非所有的第三方库都已经被安装在用户设备上，需要通过pip install package_name命令安装。

由于PyPI源没有一个严格的监控机制，任意第三方库都可以被上传，包括一些恶意第三方库。这些恶意第三方库的名称都具有一定的诱导性，例如smb，opencv，git等。当用户错误地通过pip install package_name命令安装相应的第三方库时，就会执行攻击者精心构造的恶意代码。现有的检测PyPI源中恶意第三方库的方法，是依靠管理员和开发人员在日常使用过程中的安全敏感意识去识别，并不能及时检测出恶意第三方库，具有一定的滞后性。而且，通常只有少量的恶意第三方库能够被识别出，由此引起的识别率低问题最终必将导致识别效率低。因此，需要一种新的PyPI源中恶意第三方库的检测方案来改进上述处理过程。

发明内容

为此，本发明提供一种PyPI源中恶意第三方库的检测的技术方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种PyPI源中恶意第三方库的检测方法，适于在计算设备中执行，计算设备与PyPI源服务器通信连接，PyPI源服务器中存储有多个第三方库及关联有各第三方库的当前第三方库列表，该方法包括如下步骤：首先，从PyPI源服务器获取当前第三方库列表；根据预设的匹配规则，对当前第三方库列表关联的各第三方库进行匹配；将各匹配成功的第三方库标记为恶意第三方库；对各匹配失败的第三方库进行安装文件检测，若安装文件的检测结果指示对应的第三方库存在恶意指令，则将该第三方库标记为恶意第三方库；统计合并标记为恶意第三方库的第三方库，根据合并后的结果进行告警处理。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，匹配规则包括一个或多个已知的恶意第三方库的名称，根据预设的匹配规则，对当前第三方库列表关联的各第三方库进行匹配的步骤包括：从匹配规则中获取其所包括已知的恶意第三方库的名称；对当前第三方库列表关联的每一个第三方库，将该第三方库的名称与各已知的恶意第三方库的名称分别进行匹配；若存在与该第三方库的名称匹配的恶意第三方库，则判定匹配成功，否则判定匹配失败。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，对各匹配失败的第三方库进行安装文件检测的步骤包括：对各匹配失败的第三方库，检测该第三方库对应的安装文件是否通过导入指令引入第一相关库,第一相关库包括命令执行库、网络请求库和/或远程访问库；若该第三方库对应的安装文件通过导入指令引入第一相关库，则判定该第三方库存在恶意指令。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，对各匹配失败的第三方库进行安装文件检测的步骤包括：对各匹配失败的第三方库，检测该第三方库对应的安装文件是否引入已知的恶意第三方库；若该第三方库对应的安装文件引入已知的恶意第三方库，则判定该第三方库存在恶意指令。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，计算设备中存储有历史检测记录，历史检测记录包括历史第三方库列表，历史第三方库列表关联有上一次从PyPI源服务器获取的、一个或多个第三方库，该方法还包括：将当前第三方库列表与历史第三方库列表进行比较，以获取当前新增的第三方库；根据预设的匹配规则，对当前新增的第三方库进行匹配。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，计算设备中存储有历史检测记录，历史检测记录包括空目录表，空目录表关联有一个或多个目录为空的伪恶意第三方库，该方法还包括：对空目录表所关联的各目录为空的伪恶意第三方库进行检测；若该伪恶意第三方库的目录下新增有相关内容，则将该伪恶意第三方库标记为恶意第三方库，并删除其与空目录表的关联。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，还包括：对各匹配成功的第三方库，判断该第三方库的目录是否为空；若该第三方库的目录为空，则将该第三方库标记为伪恶意第三方库，并与空目录表关联。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，在对各匹配失败的第三方库进行安装文件检测的步骤之后，还包括：基于应用容器引擎构建一个应用容器；在应用容器中，通过钩子技术对各未标记为恶意第三方库的第三方库的模拟安装进行动态监测；将安装过程中存在恶意行为的第三方库标记为恶意第三方库。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，通过钩子技术对各未标记为恶意第三方库的第三方库的模拟安装进行动态监测的步骤包括：对每一个未标记为恶意第三方库的第三方库，将该第三方库的相关代码注入到基于钩子技术生成的钩子函数中；运行应用容器并在该应用容器中模拟安装该第三方库；获取钩子函数捕获的结果；若该结果指示在安装过程中引入了第一相关库，则判定该第三方库的安装过程中存在恶意行为。

可选地，在根据本发明的PyPI源中恶意第三方库的检测方法中，还包括预先生成匹配规则，预先生成匹配规则的步骤包括：获取PyPI源恶意攻击事件相关的恶意第三方库的名称；获取PyPI源服务器中已删除的恶意第三库的名称；将获取到的一个或多个恶意第三方库的名称作为已知的恶意第三方库的名称，以形成匹配规则。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的PyPI源中恶意第三方库的检测方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的PyPI源中恶意第三方库的检测方法。

根据本发明的PyPI源中恶意第三方库的检测的技术方案，首先，根据匹配规则对当前三方库列表中关联的各第三方库进行匹配，若匹配成功，则将对应的第三方库标记为恶意第三方库，若匹配失败，则对相应的第三方库进行安装文件检测，对检测结果指示存在恶意指令的第三方库标记为恶意第三方库，最后统计合并恶意第三方库并进行告警。在上述方案中，先将各第三方库的名称与匹配规则中已知的恶意第三方库的名称分别进行匹配，对未匹配上的第三方库进行安装文件检测，以排查安装文件是否引入命令执行库、网络请求库、远程访问库和/或已知的恶意第三方库，若引入以上任一种库，均判定该第三方库为恶意第三方库，实现了自动检测第三方库的名称和相关文件内容，具有自动化监控的特性，能够及时发现PyPI源上出现的恶意第三方库，避免人工识别恶意第三方库的滞后性。而且，由于存在注册了恶意第三方库名称但未上传恶意第三方库的情况，则对已知的空目录的第三方库进行复查，若目录下新增内容，则将该第三方库标记为恶意第三方库，若目录依旧为空，则留存到下一次检测继续复查，从而提高了识别的效率和准确性，节省人力成本。此外，引入应用容器引擎构建沙盒环境，通过钩子技术模拟安装第三方库，识别安装过程中存在恶意行为的第三方库，以实现对新增的第三方库的动态监测，进一步提升识别准确率。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的网络系统100的示意图；

图2示出了根据本发明的一个实施例的计算设备200的结构框图；以及

图3示出了根据本发明的一个实施例的PyPI源中恶意第三方库的检测方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的网络系统100的示意图。应当指出，图1中的网络系统100仅是示例性的，在具体的实践情况中，网络系统100中可以有不同数量的计算设备和PyPI源服务器，本发明对网络系统100中所包括的计算设备和PyPI源服务器的数量不做限制。如图1所示，网络系统100中包括计算设备200和PyPI源服务器400，计算设备200与PyPI源服务器400通信连接。其中，PyPI源服务器400为搭载有大量PyPI源的服务器，PyPI(Python Package Index：Python包索引)源是编程语言Python公开的软件仓库，Python开发者可以将自己写好的程序发布在PyPI源上，使用者可以使用命令pip install package_name安装PyPI源上相应的程序。Python Package即为Python包，是开发者上传到PyPI源上的相关程序，也可称为第三方库，在本发明中将Python Package统称为第三方库。具体的，PyPI源服务器400中存储有多个第三方库及关联有各第三方库的当前第三方库列表，计算设备200先从PyPI源服务器400获取当前第三方库列表，根据预设的匹配规则，对当前第三方库列表关联的各第三方库进行匹配，将各匹配成功的第三方库标记为恶意第三方库，对各匹配失败的第三方库进行安装文件检测，若安装文件的检测结果指示对应的第三方库存在恶意指令，则将该第三方库标记为恶意第三方库，最后统计合并标记为恶意第三方库的第三方库，根据合并后的结果进行告警处理。

图2是根据本发明的一个实施例的计算设备200的结构框图。在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及程序数据224。在一些实施方式中，程序222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备200被配置为执行根据本发明的PyPI源中恶意第三方库的检测方法300。程序222包括用于执行根据本发明的PyPI源中恶意第三方库的检测方法300的指令。

图3示出了根据本发明的一个实施例的PyPI源中恶意第三方库的检测方法300的流程图。PyPI源中恶意第三方库的检测方法300适于在计算设备(例如图2所示的计算设备200)中执行。如图3所示，方法300始于步骤S310。在步骤S310中，从PyPI源服务器400获取当前第三方库列表。根据本发明的一个实施例，PyPI源服务器400所关联站点的/simple/页面对应于当前第三方库列表，向PyPI服务器400请求该页面的内容即可提取出当前第三方库列表，而当前第三方库列表关联有存储于PyPI源服务器400中的全部第三方库，进而可获取PyPI源上所有第三方库的名称。在该实施方式中，先请求URL地址为“https://pypi.python.org/simple/”的页面，再通过正则表达式即可匹配出所有的第三方库的名称，相关代码如下所示：

def get_pypi_package():

url＝″http://pypi.python.org/simple/″

data＝request.get(url)

return re.findall(″href＝\’([\S\s]+？)\’″,data.text)

随后，进入步骤S320，根据预设的匹配规则，对当前第三方库列表关联的各第三方库进行匹配。根据本发明的一个实施例，匹配规则包括一个或多个已知的恶意第三方库的名称，可通过如下方式来对当前第三方库列表关联的各第三方库进行匹配。首先，从匹配规则中获取其所包括已知的恶意第三方库的名称，然后，对当前第三方库列表关联的每一个第三方库，将该第三方库的名称与各已知的恶意第三方库的名称分别进行匹配，若存在与该第三方库的名称匹配的恶意第三方库，则判定匹配成功，否则判定匹配失败。在该实施方式中，匹配规则包括git、smb、opencv和zoomeye等已知的恶意第三方库的名称，步骤S310中所获取到的当前第三方库列表关联有1000个第三方库，将各第三方库依次标记为A1、A2、A3、……、A999和A1000。对这1000个第三方库中的每一个第三方库，将该第三方库的名称与各已知的恶意第三方库的名称，如git、smb、opencv和zoomeye等分别进行匹配。根据匹配结果可知，第三方库A1～A10分别具有与其名称匹配的恶意第三方库，对这10个第三方库可分别判定匹配成功，而第三方库A11～A1000并不存在与其名称匹配的恶意第三方库，则对这990个第三方库分别判断匹配失败。

需要说明的是，名称匹配成功并不要求当前第三方库列表所关联的、第三方库的名称与已知的恶意第三方库的名称完全一致，这两者相同或相近均可，换言之只需要模糊匹配即可。匹配规则包括关键字匹配和完全匹配，但并不限于此。比如，以恶意第三方库的名称zoomeye为例，第三方库A1的名称为zoom eye，第三方库A2的名称为zoomeye-dev，前者与zoomeye完全匹配，而后者仅与zoomeye关键字匹配，但均可判定第三方库A1和A2匹配成功。

为了提高检测效率，可以只对PyPI源服务器400中新增的第三方库进行恶意第三方库的检测，根据本发明的又一个实施例，计算设备200中存储有历史检测记录，历史检测记录包括历史第三方库列表，历史第三方库列表关联有上一次从PyPI源服务器400获取的、一个或多个第三方库，则对PyPI源中恶意第三方库进行检测时，将当前第三方库列表与历史第三方库列表进行比较，以获取当前新增的第三方库，再根据预设的匹配规则，对当前新增的第三方库进行匹配。在该实施方式中，历史第三方库列表关联有900个第三方库，分别为A101、A102、A103、……、A9和A1000，而当前第三方库列表关联有A1、A2、A3、……、A999和A1000共计1000个第三方库，此时将当前第三方库列表与历史第三方库列表进行比较，得到当前新增的第三方库为A1、A2、A3、……、A99和A100。对这100个新增的第三方库，根据预设的匹配规则进行匹配。具体的匹配过程可参见如上对当前第三方库列表所关联的各第三方库进行匹配的步骤，此处不予以赘述。最终可知第三方库A1～A10匹配成功，而第三方库A11～A100匹配失败。若基于效率上的考虑，则可直接以当前新增的第三方库为检测对象进行恶意第三方库的检测，不然亦可对当前第三方库列表所关联的全部第三方库进行恶意第三方库的检测，当然，实际的检测方式并无差别。为便于描述，以下将以当前新增的第三方库为检测对象，进行恶意第三方库的检测说明。

在步骤S330中，将各匹配成功的第三方库标记为恶意第三方库。根据本发明的一个实施例，第三方库A1～A10匹配成功，将这10个第三方库标记为恶意第三方库。

接下来，执行步骤S340，对各匹配失败的第三方库进行安装文件检测，若安装文件的检测结果指示对应的第三方库存在恶意指令，则将该第三方库标记为恶意第三方库。根据本发明的一个实施例，可通过如下方式对各匹配失败的第三方库进行安装文件检测。首先，对各匹配失败的第三方库，检测该第三方库对应的安装文件是否通过导入指令引入第一相关库,第一相关库包括命令执行库、网络请求库和/或远程访问库，若该第三方库对应的安装文件通过导入指令引入第一相关库，则判定该第三方库存在恶意指令。在该实施方式中，安装文件为setup.py文件，导入指令为import，则对匹配失败的第三方库A11～A100，检测其对应的setup.py文件是否通过导入指令引入命令执行库、网络请求库和/或远程访问库，进而可知第三方库A11对应的setup.py文件通过import os指令引入了命令执行库，第三方库A12对应的setup.py文件通过import sys指令引入了命令执行库，第三方库A13对应的setup.py文件通过import urllib指令引入了远程访问库，第三方库A14对应的setup.py文件通过import urllib3指令引入了远程访问库，则判定第三方库A11、A12、A13以及A14存在恶意指令。

进一步的，根据本发明的又一个实施例，还可以通过如下方式对各匹配失败的第三方库进行安装文件检测。首先，对各匹配失败的第三方库，检测该第三方库对应的安装文件是否引入已知的恶意第三方库，若该第三方库对应的安装文件引入已知的恶意第三方库，则判定该第三方库存在恶意指令。在该实施方式中，安装文件为setup.py文件，已知的恶意第三方库的名称可参见预设的匹配规则，则对匹配失败的第三方库A11～A100，检测其对应的setup.py文件是否引入名称为git、smb、opencv和zoomeye等已知的恶意第三方库，由此可知第三方库A15对应的setup.py文件引入了名称为git的已知的恶意第三方库，第三方库A16对应的setup.py文件引入了名称为smb的已知的恶意第三方库，则判定第三方库A15和A6存在恶意指令。综合上述对各匹配失败的第三方库进行安装文件检测的结果，该检测结果指示第三方库A11～A16存在恶意指令，则将第三方库A11～A16均标记为恶意第三方库。

考虑到存在注册了恶意第三方库名称但未上传恶意第三方库的情况，根据本发明的又一个实施例，计算设备200中存储有历史检测记录，历史检测记录包括空目录表，空目录表关联有一个或多个目录为空的伪恶意第三方库，在检测恶意第三方库时，对空目录表所关联的各目录为空的伪恶意第三方库进行检测，若该伪恶意第三方库的目录下新增有相关内容，则将该伪恶意第三方库标记为恶意第三方库，并删除其与空目录表的关联。其中，伪恶意第三方库的实质在于其具有已知的恶意第三方库的名称，但目录却为空，即访问URL地址为“https://pypi.python.org/simple/第三方库的名称”的页面时，目录下没有关联有恶意代码的内容。在该实施方式中，空目录表关联有5个目录为空的伪恶意第三方库，分别记为B1、B2、B3、B4和B5，对这5个伪恶意第三方库分别进行检测，由检测结果可知伪恶意第三方库B1和B2的目录下新增有相关内容，该相关内容为关联有恶意代码的文件，则将伪恶意第三方库B1和B2标记为恶意第三方库，并删除其与空目录表的关联。而伪恶意第三方库B3、B4和B5的目录依旧为空，则继续保留这3个伪恶意第三方库与空目录表的关联关系，以待下一次检测恶意第三方库时进行复查。

为了完善空目录表所关联的伪恶意第三方库，根据本发明的又一个实施例，在根据预设的匹配规则对各第三方库进行匹配后，对各匹配成功的第三方库，判断该第三方库的目录是否为空，若该第三方库的目录为空，则将该第三方库标记为伪恶意第三方库，并与空目录表关联。在该实施方式中，匹配成功的第三方库为A1～A10，对这10个第三方库，分别判断各第三方库的目录是否为空，由判断结果可知第三方库A8、A9和A10的目录为空，则将第三方库A8、A9和A10标记为伪恶意第三方库，并与空目录表关联，以备下一次检测恶意第三方库时进行复查。

为了进一步提升恶意第三方库识别的准确率，在步骤S340中对各匹配失败的第三方库进行安装文件检测之后，根据本发明的又一个实施例，可通过应用容器引擎和钩子技术对各匹配失败的第三方库进行二次检测。简单来说，先基于应用容器引擎构建一个应用容器，在该应用容器中，通过钩子技术对各未标记为恶意第三方库的第三方库的模拟安装进行动态监测，再将安装过程中存在恶意行为的第三方库标记为恶意第三方库。在对第三方库的模拟安装进行动态监测时，首先对每一个未标记为恶意第三方库的第三方库，将该第三方库的相关代码注入到基于钩子技术生成的钩子函数中，运行应用容器并在该应用容器中模拟安装该第三方库，获取钩子函数捕获的结果，若该结果指示在安装过程中引入了第一相关库，则判定该第三方库的安装过程中存在恶意行为。

在该实施方式中，应用容器引擎为Docker，应用容器为Docker容器，钩子技术为Hook技术，钩子函数为Hook函数，执行完步骤S340后得到的未标记为恶意第三方库的第三方库为A17～A100，则在构建好一个Docker容器后，在该Docker容器中通过Hook技术对第三方库A17～A100的模拟安装进行动态监测。具体的，以第三方库A17为例，将第三方库A17的相关Python代码注入到基于Hook技术生成的Hook函数中，运行该Docker容器并在其中模拟安装第三方库A17，获取Hook函数捕获的结果，由于该结果指示在安装过程中引入了urllib这个远程访问库，而远程访问库属于第一相关库，则判断第三方库A17的安装过程存在恶意行为。基于上述操作，第三方库A17～A100中有4个第三方库在安装过程中存在恶意行为，分别是A17、A18、A19和A20，最终将第三方库A17、A18、A19和A20均标记为恶意第三方库。

最后，进入步骤S350，统计合并标记为恶意第三方库的第三方库，根据合并后的结果进行告警处理。根据本发明的一个实施例，标记为恶意第三方库的第三方库包括A1～A20、B1和B2，将这20个第三方库进行统计合并，由于并不存在名称相同的第三方库，则可直接对这20个第三方库采取告警处理，如发送报警邮件至管理员等。而且，为了对PyPI源进行恶意第三方库的持续性检测，可每隔一定的时间间隔来重复执行步骤S310～S350，通过提供严格的监控机制来及时识别出恶意第三方库，保证PyPI源不受恶意第三方库的不良影响。

此外，用于名称匹配的匹配规则是需要预先生成的，则根据本发明的一个实施例，可通过如下方式来预先生成匹配规则。首先，获取PyPI源恶意攻击事件相关的恶意第三方库的名称，获取PyPI源服务器400中已删除的恶意第三库的名称，将获取到的一个或多个恶意第三方库的名称作为已知的恶意第三方库的名称，以形成匹配规则。在该实施方式中，PyPI源恶意攻击事件包括曾经发生的PyPI源钓鱼事件、已经发现的针对性攻击行为等，曾经发生的PyPI源钓鱼事件中出现的恶意第三方库的名称具有一定的参考价值，如git、smb等，而根据已经发现的针对性攻击行为可加入了被攻击方的相关产品信息，如zoomeye等，进而得到PyPI源恶意攻击事件相关的恶意第三方库的名称为git、smb和zoomeye等。恶意第三方库被删除后，相关名称通常被保留下来，如opencv等，以便监控是否会被重新上传，则得到PyPI源服务器400中已删除的恶意第三库的名称为opencv等，再将获取到的各恶意第三方库的名称作为已知的恶意第三方库的名称，以形成相应的匹配规则。其中，名称为git、smb、opencv、tkinter、mkl、python-dev、openssl等已知的恶意第三方库对应于完全匹配的匹配规则，而名称为zoomeye、knownsec等已知的恶意第三方库对应于关键字匹配的匹配规则。关于匹配规则与已知的恶意第三方库的名称的对应关系，可依据恶意第三方库的来源、攻击行为等实际情况来划分，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

现有的检测PyPI源中恶意第三方库的方法，是依靠管理员和开发人员在日常使用过程中的安全敏感意识去识别，并不能及时检测出恶意第三方库，具有一定的滞后性。而且，通常只有少量的恶意第三方库能够被识别出，由此引起的识别率低问题最终必将导致识别效率低。根据本发明实施例的PyPI源中恶意第三方库的检测的技术方案，首先，根据匹配规则对当前三方库列表中关联的各第三方库进行匹配，若匹配成功，则将对应的第三方库标记为恶意第三方库，若匹配失败，则对相应的第三方库进行安装文件检测，对检测结果指示存在恶意指令的第三方库标记为恶意第三方库，最后统计合并恶意第三方库并进行告警。在上述方案中，先将各第三方库的名称与匹配规则中已知的恶意第三方库的名称分别进行匹配，对未匹配上的第三方库进行安装文件检测，以排查安装文件是否引入命令执行库、网络请求库、远程访问库和/或已知的恶意第三方库，若引入以上任一种库，均判定该第三方库为恶意第三方库，实现了自动检测第三方库的名称和相关文件内容，具有自动化监控的特性，能够及时发现PyPI源上出现的恶意第三方库，避免人工识别恶意第三方库的滞后性。而且，由于存在注册了恶意第三方库名称但未上传恶意第三方库的情况，则对已知的空目录的第三方库进行复查，若目录下新增内容，则将该第三方库标记为恶意第三方库，若目录依旧为空，则留存到下一次检测继续复查，从而提高了识别的效率和准确性，节省人力成本。此外，为弥补静态判断代码的不足，引入应用容器引擎构建沙盒环境，通过钩子技术模拟安装第三方库，识别安装过程中存在恶意行为的第三方库，以实现对新增的第三方库的动态监测，进一步提升识别准确率。

A9.如A8所述的方法，所述通过钩子技术对各未标记为恶意第三方库的第三方库的模拟安装进行动态监测的步骤包括：

对每一个未标记为恶意第三方库的第三方库，将该第三方库的相关代码注入到基于钩子技术生成的钩子函数中；

运行所述应用容器并在该应用容器中模拟安装该第三方库；

获取钩子函数捕获的结果；

若该结果指示在安装过程中引入了所述第一相关库，则判定该第三方库的安装过程中存在恶意行为。

A10.如A1-9中任一项所述的方法，还包括预先生成匹配规则，所述预先生成匹配规则的步骤包括：

获取PyPI源恶意攻击事件相关的恶意第三方库的名称；

获取PyPI源服务器中已删除的恶意第三库的名称；

将获取到的一个或多个恶意第三方库的名称作为已知的恶意第三方库的名称，以形成匹配规则。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的PyPI源中恶意第三方库的检测方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种PyPI源中恶意第三方库的检测方法，适于在计算设备中执行，所述计算设备与PyPI源服务器通信连接，所述PyPI源服务器中存储有多个第三方库及关联有各第三方库的当前第三方库列表，所述方法包括：

从所述PyPI源服务器获取当前第三方库列表；

根据预设的匹配规则，对所述当前第三方库列表关联的各第三方库进行匹配；

将各匹配成功的第三方库标记为恶意第三方库；

对各匹配失败的第三方库进行安装文件检测，若安装文件的检测结果指示对应的第三方库存在恶意指令，则将该第三方库标记为恶意第三方库；

统计合并标记为恶意第三方库的第三方库，根据合并后的结果进行告警处理。

2.如权利要求1所述的方法，所述匹配规则包括一个或多个已知的恶意第三方库的名称，所述根据预设的匹配规则，对所述当前第三方库列表关联的各第三方库进行匹配的步骤包括：

从所述匹配规则中获取其所包括已知的恶意第三方库的名称；

对所述当前第三方库列表关联的每一个第三方库，将该第三方库的名称与各已知的恶意第三方库的名称分别进行匹配；

若存在与该第三方库的名称匹配的恶意第三方库，则判定匹配成功，否则判定匹配失败。

3.如权利要求1或2所述的方法，所述对各匹配失败的第三方库进行安装文件检测的步骤包括：

对各匹配失败的第三方库，检测该第三方库对应的安装文件是否通过导入指令引入第一相关库,所述第一相关库包括命令执行库、网络请求库和/或远程访问库；

若该第三方库对应的安装文件通过导入指令引入第一相关库，则判定该第三方库存在恶意指令。

4.如权利要求1-3中任一项所述的方法，所述对各匹配失败的第三方库进行安装文件检测的步骤包括：

对各匹配失败的第三方库，检测该第三方库对应的安装文件是否引入已知的恶意第三方库；

若该第三方库对应的安装文件引入已知的恶意第三方库，则判定该第三方库存在恶意指令。

5.如权利要求1-4中任一项所述的方法，所述计算设备中存储有历史检测记录，所述历史检测记录包括历史第三方库列表，所述历史第三方库列表关联有上一次从PyPI源服务器获取的、一个或多个第三方库，所述方法还包括：

将当前第三方库列表与历史第三方库列表进行比较，以获取当前新增的第三方库；

根据预设的匹配规则，对当前新增的第三方库进行匹配。

6.如权利要求1-5中任一项所述的方法，所述计算设备中存储有历史检测记录，所述历史检测记录包括空目录表，所述空目录表关联有一个或多个目录为空的伪恶意第三方库，所述方法还包括：

对空目录表所关联的各目录为空的伪恶意第三方库进行检测；

若该伪恶意第三方库的目录下新增有相关内容，则将该伪恶意第三方库标记为恶意第三方库，并删除其与空目录表的关联。

7.如权利要求6所述的方法，还包括：

对各匹配成功的第三方库，判断该第三方库的目录是否为空；

若该第三方库的目录为空，则将该第三方库标记为伪恶意第三方库，并与所述空目录表关联。

8.如权利要求1-7中任一项所述的方法，在对各匹配失败的第三方库进行安装文件检测的步骤之后，还包括：

基于应用容器引擎构建一个应用容器；

在所述应用容器中，通过钩子技术对各未标记为恶意第三方库的第三方库的模拟安装进行动态监测；

将安装过程中存在恶意行为的第三方库标记为恶意第三方库。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。