CN104933363A

CN104933363A - 检测恶意文件的方法和装置

Info

Publication number: CN104933363A
Application number: CN201510346583.8A
Authority: CN
Inventors: 熊蜀光; 冯侦探; 曹德强; 周晓波; 耿志峰; 白军辉
Original assignee: Anyi Hengtong Beijing Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2015-09-23
Anticipated expiration: 2035-06-19
Also published as: CN104933363B; WO2016201819A1

Abstract

本申请公开了一种检测恶意文件的方法和装置。所述方法的一具体实施方式包括：获取下载待检测文件的统一资源定位符URL；将所述待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定所述待检测文件是否为恶意文件。该实施方式可以提高检测恶意文件的效率。

Description

检测恶意文件的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及网络信息安全技术领域，尤其涉及一种检测恶意文件的方法和装置。

背景技术

在互联网下载文件时，一些下载链接往往通过伪装指向恶意文件。这些恶意文件(例如包含可以在计算机系统上执行恶意任务的病毒、蠕虫或特洛伊木马的程序的文档)被下载到用户的计算机，可能使得网络用户的信息安全受到威胁。

目前，大多杀毒类应用使用的静态检测方法中，通常先提取所要下载的文件的属性信息或者所包含的内容等特征，进而根据预先训练的模型对这些特征进行匹配从而确定文件是否为恶意文件。这些方法需要先获取文件的相关特征，且对于不包含明显的恶意文件特征的文件，不能判定是否为恶意文件，鉴定效率较低。

发明内容

本申请的目的在于提出一种改进的检测恶意文件的方法和装置，来解决以上背景技术部分提到的技术问题。

一方面，本申请提供了一种检测恶意文件的方法，所述方法包括：获取下载待检测文件的统一资源定位符URL；将所述待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定所述待检测文件是否为恶意文件。

在一些实施例中，所述预设模型包括通过已知的恶意文件和非恶意文件的URL样本训练生成的字典树。

在一些实施例中，在所述字典树中：每条边对应一个字符串；

每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的字符串按顺序拼接而成；每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在一些实施例中，所述基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件包括：获取所述预设模型中与所述URL相匹配的最长字符串所达到的节点；读取所述最长字符串所达到的节点记录的所述数量或比值；基于所述数量或比值确定待检测文件是否为恶意文件。

在一些实施例中，所述基于所述数量或比值确定待检测文件是否为恶意文件包括：根据所述路径匹配条件获取经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者根据所述数量计算经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；判断所述比值是否大于预设阈值；当大于预设阈值时，确定待检测文件为恶意文件；当不大于预设阈值时，确定待检测文件为非恶意文件。

在一些实施例中，所述字典树包括通过以下方法将所述样本集训练生成的字典树：将所述样本集中所包含的URL进行字符串匹配，并根据匹配结果获取所述样本集包含的URL的所有公共前缀字符串；使所述字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL；在所述字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在一些实施例中，所述方法还包括：根据确定所述待检测文件是否为恶意文件的结果更新所述预设模型。

另一方面，本申请提供了一种检测恶意文件的装置，所述装置包括：获取模块，配置用于获取下载待检测文件的统一资源定位符URL；匹配模块，配置用于将所述待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；确定模块，配置用于基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件。

在一些实施例中，在所述字典树中：每条边对应一个字符串；每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的字符串按顺序拼接而成；每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在一些实施例中，所述确定模块包括：获取单元，配置用于根据所述路径匹配条件获取所述预设模型中与所述URL相匹配的最长字符串所达到的节点；读取单元，配置用于读取所述最长字符串所达到的节点记录的所述数量或比值；确定单元，配置用于基于所述数量或比值判断待检测文件是否为恶意文件。

在一些实施例中，所述确定单元包括：比值获取子单元，配置用于获取经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者根据所述数量计算经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；确定子单元，判断所述比值是否大于预设阈值；以及，当大于预设阈值时，确定待检测文件为恶意文件；当不大于预设阈值时，确定待检测文件为非恶意文件。

在一些实施例中，所述装置还包括字典树生成模块，所述字典树生成模块包括：字符串匹配单元，配置用于将所述样本集中所包含的URL进行字符串匹配，并根据匹配结果获取所述样本集包含的URL的所有公共前缀字符串；字典树生成单元，配置用于使所述字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL；以及，在所述字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在一些实施例中，所述装置还包括更新模块，所述更新模块配置用于根据确定所述待检测文件是否为恶意文件的结果更新所述预设模型。

本申请提供的检测恶意文件的方法和装置，通过获取待检测文件的统一资源定位符URL，并将待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配，基于匹配到的最长字符串，确定待检测文件是否为恶意文件，不需要获取待检测文件的其他信息，提高了对恶意文件的鉴定效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的检测恶意文件的方法的一个实施例的流程图；

图2是根据本申请的预设模型的一个字典树的示意图；

图3a是根据本申请的预设模型的另一个字典树的示意图；

图3b是根据图3a所示的字典树的一个示例的更新后的示意图；

图4是根据本申请的一种检测恶意文件的方法的一个应用场景的示意图；

图5是根据本申请的检测恶意文件的装置的一个实施例的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了检测恶意文件的方法的一个实施例的流程100。本实施例主要以该方法应用于支持下载类应用和/或浏览器应用安装于其上的各种电子设备，包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。该检测恶意文件的方法，包括以下步骤：

步骤101，获取下载待检测文件的URL。

在本实施例中，电子设备首先可以根据用户从网络下载文件的请求获取下载待检测文件的URL(Uniform Resoure Locator，统一资源定位符)，在这里，待检测文件可以为用户所请求的从网络下载的文件。

其中，统一资源定位符URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器或下载类应用应该怎么处理它。基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名。URL可以通过包括字母、数字、符号的字符串表示，例如：http://www.sohu.com/。

用户在从服务器下载文件时，可以通过在浏览器所显示的页面上点击超链接或者下载地址发出下载相应文件的请求，也可以在下载类应用中点击超链接或输入下载地址发出下载相应的文件的请求。此时，如果文件的下载地址已知，则电子设备可以直接获取该下载地址，该下载地址可以视为待检测文件的URL。如果下载文件的超链接被用户点击，则电子设备可以通过浏览器或者下载类应用获取该超链接所关联的URL，即为待检测文件的URL。

步骤102，将待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配。

在本实施例中，电子设备可以接着将待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配。其中，预设模型中可以包括多个已知的恶意文件的URL对应的字符串及已知的非恶意文件的URL对应的字符串。在一些实现中，电子设备可以通过人工获得多个恶意文件的URL及非恶意文件的URL。在另一些实现中，电子设备可以首先从多个下载站点抓取文件，并保存其URL，然后通过预定的杀毒引擎(例如大蜘蛛Dr.web、卡巴斯基Kaspersky等等)对这些文件进行鉴定，以确定他们是恶意文件还是非恶意文件，从而获得多个已知的恶意文件的URL及已知的非恶意文件的URL。实践中，电子设备还可以通过其他任意可行的方式获取多个已知的恶意文件的URL及非恶意文件的URL，本申请对此不做限定。

电子设备可以将预设模型中的URL单独保存(一个URL对应一个存储地址)，也可以预先通过字符串匹配将URL中的字符串以树的结构形式(例如可以是字典树)保存。相应地，电子设备可以将预设模型中的URL逐条与待检测文件的URL进行字符串匹配，也可以以一个字符或多个字符为单元按照树的结构形式中包含的字符串进行字符串匹配。其中，进行字符串匹配时，按次序从字符串开始处进行匹配，相同位置的字符都相同的两个字符串为相匹配的字符串。对于待检测文件的URL，如果当前位置的字符与预设模型中的URL对应位置的字符串不相匹配，则认为待检测文件的URL包含的字符串与预设模型中的字符串不相匹配。

作为示例，电子设备可以将URL中的字符串以图2所示的字典树的形式保存。字典树又称单词查找树，可以将大量的字符串(但不仅限于字符串)排序和保存，它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，提高查询效率。其中，如果一个字符串是由另一个字符串的前面部分的连续字符组成的，那么该字符串是另一个字符串的前缀，比如“ac”是字符串“acm”的前缀，“abcd”是字符串“abcddfasf”的前缀，特别地，“kdfa”是字符串“kdfa”的前缀。在图2给出的示例中，假如已知的4个URL分别为：www.abc.com/hello.exe、www.ok.com/ok.exe、down.com/notepad.exe、www.ok.com/malware.exe。电子设备可以根据字符串匹配获取上述4个URL之间的公共前缀，并在字典树的一个节点中存储共用的字符。如：www.abc.com/hello.exe、www.ok.com/ok.exe、www.ok.com/malware.exe，具有共用的字符“w”、“w”、“w”、“.”，则将这3个URL在字典树根节点的一个子树的节点上分别存储字符“w”、“w”、“w”、“.”。URL“down.com/notepad.exe”与上述3个URL没有共用的字符，则在字典树根节点的一个子树的节点上分别存储URL“down.com/notepad.exe”的字符。以此类推，3个URLwww.abc.com/hello.exe、www.ok.com/ok.exe、www.ok.com/malware.exe继续匹配，当有不同的字符时，建立节点的多个子节点。

步骤103，基于待检测文件的URL在预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件。

在本实施例中，电子设备可以接着基于待检测文件的URL在预设模型中匹配到的最长字符串，确定出待检测文件是否为恶意文件。

其中，待检测文件的URL在预设模型中匹配到的最长字符串，可以是和待检测文件的URL相匹配的字符最多的字符串，例如，预设模型中包括4个URL：www.abc.com/hello.exe、www.ok.com/ok.exe、down.com/notepad.exe、www.ok.com/malware.exe，当待检测文件的URL为www.ok.com/ok malware.exe时，待测文件的URL包含的字符串与预设模型中的字符串相匹配，可以将匹配到字符串“www.ok.com/ok”作为在预设模型中匹配到的最长字符串。在一些实现中，预设模型中的URL单独保存，电子设备可以将待检测文件的URL与预设模型中的URL逐个匹配，并根据与待检测文件的URL具有最长的相匹配字符串的URL所对应的文件类型作为待检测文件的类型。例如在前述的例子中，待检测文件的URL在预设模型中匹配到的最长字符串为“www.ok.com/ok”，对应的URL为“www.ok.com/ok.exe”，则如果URL“www.ok.com/ok.exe”对应的文件为恶意文件，则电子设备可以确定待检测文件为恶意文件，如果“www.ok.com/ok.exe”对应的文件为非恶意文件，则电子设备可以确定待检测文件为非恶意文件。在另一些实现中，预设模型中的URL以图2所示的字典树形式储存，电子设备可以将待检测文件的URL包含的字符串与字典树中节点处的字符逐个匹配，并按照匹配到的最后一个字符所存储的节点的子树中包括的URL对应的恶意文件和非恶意文件的数量或比值确定待检测文件是否为恶意文件。如前述的例子中，待检测文件的URL“www.ok.com/ok malware.exe”，在图2所示的字典树中匹配到的最后一个字符为“www.ok.com/ok”中的最后一个字符“k”，而该字符对应的子树中只包括1个URL“www.ok.com/ok.exe”，如果URL“www.ok.com/ok.exe”对应的文件是非恶意文件，则电子设备可以根据该字符所存储在的节点对应的子树中所包括的恶意文件与非恶意文件的数量来确定待检测文件是否为恶意文件，例如可以根据恶意文件与非恶意文件的数量(如根据恶意文件在总文件数量中的比重0/(1+0)＝0)确定待检测文件为非恶意文件；电子设备还可以根据该字符所存储在的节点对应的子树中所包括的恶意文件与非恶意文件的比值来确定待检测文件是否为恶意文件，例如恶意文件与非恶意文件的比值为0:1＝0确定待检测文件为非恶意文件。实践中，电子设备可以预设恶意文件与非恶意文件的比值的阈值(例如可以是100:1)，当恶意文件与非恶意文件的比值大于该阈值时，确定待检测文件为恶意文件，否则，确定待检测文件为非恶意文件。该阈值可以由人工根据经验设定，也可以根据对预设模型的验证样本集的判断准确率(例如是99％)训练确定。可选地，电子设备也可以预设非恶意文件与恶意文件的比值，并在该比值是否小于预设的非恶意文件与恶意文件的比值阈值时，确定待检测文件为恶意文件等，本申请对此不做限定。

在本实施例的一个可选实现方式中，当预设模型中的URL以字典树形式储存时，为节约存储资源和提高匹配效率，在字典树中，每条边可以对应一个字符串；每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的字符串按顺序拼接而成；每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值。其中，上述路径匹配条件可以包括：从根节点到该节点处的路径对应的字符串是文件的URL的前缀。可选地，字典树的边对应的字符串可以记录在该边末端连接的节点处。如图3a所示，4个已知的恶意文件和非恶意文件的URL中，包括1个恶意文件的URL“www.ok.com/malware.exe”，和3个非恶意文件的URL“www.abc.com/hello.exe”、“www.ok.com/ok.exe”、“down.com/notepad.exe”，电子设备可以在根节点3000处记录恶意文件与非恶意文件的数量分别为3和1。根据前述的字符串匹配方法，其中，URL“down.com/notepad.exe”与其他3个URL没有公共前缀，则通过连接根节点的一个边3010对应字符串“down.com/notepad.exe”，并在该边的另一端的节点3001处记录非恶意文件与恶意文件的数量分别为1和0。URL“www.ok.com/malware.exe”、“www.abc.com/hello.exe”、“www.ok.com/ok.exe”具有相同的前缀字符串“www.”，则在字典树中可以通过连接根节点的另一个边3020对应3个URL的公共前缀“www.”，并通过该边另一端的节点3002记录非恶意文件与恶意文件的数量分别为2和1。接着，URL“www.abc.com/hello.exe”与其他两个URL接下来的字符不相同，则通过与3个URL经过的共同节点3002连接的一个边3030对应字符串“abc.com/hello.exe”，并在与该边3030连接的另一个节点3003记录恶意文件与非恶意文件的数量分别为0和1，而通过与3个URL经过的共同节点3002连接的一个边3040对应另两个URL的公共字符串“ok.com/”，并在该边3040的另一个节点3004记录恶意文件与非恶意文件的数量分别为1和1，接着，通过边3050对应字符串“malware.exe”，对应节点3005处记录恶意文件与非恶意文件的数量分别为0和1，同样，通过边3060对应字符串“ok.exe”，对应节点3006处记录恶意文件与非恶意文件的数量分别为1和0。以此类推，直到样本集中所有已知恶意文件和非恶意文件的URL包含的字符都通过字典树存储。可选地，边对应的字符串可以通过边所到达的节点存储，如边3020对应的字符串可以通过节点3002存储。可选地，节点处也可以记录满足路径匹配条件的非恶意文件和恶意文件的比值，例如根节点3000处记录比值为3:1。

在本实施例的一些实现方式中，当预设模型中的URL以图3a所示的字典树形式储存时，电子设备可以首先根据上述的路径匹配条件获取预设模型中与待检测文件的URL相匹配的最长字符串所达到的节点；接着读取最长字符串所达到的节点记录的数量或比值；然后，基于上述数量或比值确定待检测文件是否为恶意文件。可选地，电子设备可以直接获取经过待检测文件的URL在预设模型中匹配到的最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者根据待检测文件的URL在预设模型中匹配到的最长字符串所达到的节点处记录的数量计算经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；并判断上述比值是否大于预设阈值：当大于预设阈值时，确定待检测文件为恶意文件；当不大于预设阈值时，确定待检测文件为非恶意文件。其中，该阈值可以由人工根据经验设定，也可以根据对预设模型的验证样本集的判断准确率训练确定。在一些情况下，非恶意文件的数量可能为0，则计算恶意文件与非恶意文件的比值时，可以将非恶意文件的数量取为电子设备可以计算的最小非零的小数，如0.0000001，或将恶意文件与非恶意文件的比值取为电子设备可以计算的最大数值，如99999999。本领域技术人员可以理解，当字典树中记录的为非恶意文件与恶意文件的比值时，上述根据比值判断待检测文件是否为恶意文件的方法同样适用。

作为一个示例，电子设备将图3a所示的字典树作为预设模型，则可以通过以下过程对待检测文件的URL进行匹配。假设电子设备获取了下载待检测文件的URL为“www.ok.com/ok malware.exe”，电子设备接着将该URL包含的字符串与如图3a所示的字典树的预设模型中的字符串进行匹配。首先，电子设备匹配到边3020对应的字符串“www.”，并到达节点3002，接着，电子设备匹配到边3040对应的字符串“ok.com/”，并到达节点3004，再接着，电子设备将字符串“okmalware.exe”分别与边3050对应的字符串“malware.exe”和边3060对应的字符串“ok.exe”进行匹配，结果都不相匹配。因此，电子设备可以确定，待检测文件的URL“www.ok.com/ok malware.exe”在图3a所示的字典树中匹配到的最长字符串为边3020、边3040对应的字符串“www.ok.com/”，该最长的字符串到达的最远节点为节点3004，此时，电子设备可以读取节点3004处记录的恶意文件与非恶意文件的数量分别为1和1。电子设备接着可以计算经过节点3004的字符串对应的URL中所包含的恶意文件与非恶意文件的比值为1:1，假设电子设备预设的恶意文件与非恶意文件的比值阈值为100:1，则节点3004的字符串对应的URL中所包含的恶意文件与非恶意文件的比值小于预设阈值，电子设备可以确定待检测文件为非恶意文件。

在本实施例的一些实现方式中，电子设备在确定待检测文件为恶意文件或非恶意文件后，还可以根据确定的结果更新预设模型。换句话说，电子设备可以将待检测文件的URL存入预设模型，并作为已知的恶意文件或非恶意文件对预设模型中的相关内容进行更新。例如，在上述的以图3a所示的字典树为预设模型的例子中，电子设备根据待检测文件的URL“www.ok.com/ok malware.exe”判断待检测文件为非恶意文件，则电子设备可以进一步将URL“www.ok.com/ok malware. exe”作为已知的样本更新图3a中的字典树，得到更新的字典树如图3b所示。在图3b中，字典树生成新的节点3007、3008，边3060对应字符串更新为“ok malware.exe”与“ok.exe”的公共字符串“ok”，边3070对应的字符串为“malware.exe”，边3080对应的字符串为“.exe”。相应路径上非恶意文件数量增加1，则各节点的数据也进行更新，例如，节点3000中非恶意文件数量更新为4，节点3002中非恶意文件数量更新为3，等等。

在本实施例的一些实现方式中，电子设备可以通过以下方法将已知恶意文件的URL和已知非恶意文件的URL组成的样本集训练生成的字典树：将样本集中所包含的URL进行字符串匹配，并根据匹配结果获取样本集包含的URL的所有公共前缀字符串；使字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL；在字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值。其中，路径匹配条件可以包括：从根节点到该节点处的路径对应的字符串是文件的URL的前缀。在这里，公共前缀字符串可以是包含公共前缀的URL的公共前缀的一部分，例如上述的例子中，图3a中的边3040对应的字符串“ok.com/”；也可以是一个URL与其他URL不相匹配的字符串，例如上述的例子中，图3a中的边3060对应的字符串“ok.exe”、边3010对应的字符串“down.com/notepad.exe”等等。

本实施例的一个应用场景可以为安装杀毒应用的电子设备检测恶意文件的过程(杀毒过程)。其中，在杀毒应用中包含预先训练的预设模型。如图4所示，在标号401中，用户通过电子设备点击所要下载的文件对应的超链接或下载地址下载文件。此时，电子设备上的杀毒应用将用户所要下载的文件作为待检测文件，并获取待检测文件的下载地址(URL)或者超链接所关联的URL，如标号402所示。接着，如标号403所示，杀毒应用将URL所包含的字符串与预设模型中的字符串进行匹配。然后，如标号404所示，杀毒应用根据待检测文件的URL在预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件。若待检测文件是恶意文件，则如标号405所示，杀毒应用给出用户所要下载的文件为恶意文件的提示或拒绝连接到相应网站。否则，电子设备正常下载文件。本实施例通过待检测文件的URL判断待简称为文件是否恶意文件，提高了恶意文件的鉴定效率。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种检测恶意文件的装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于电子设备中。

如图5所示，检测恶意文件的装置500包括获取模块501、匹配模块502、确定模块503。其中，获取模块501可以配置用于获取下载待检测文件的统一资源定位符URL；匹配模块502可以配置用于将待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；确定模块503可以配置用于基于待检测文件的URL在预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件。

在本实施例中，检测恶意文件的装置500的获取模块501可以根据用户从网络下载文件的请求获取下载待检测文件的URL，在这里，待检测文件可以为用户所请求的从网络下载的文件。

在本实施例中，匹配模块502可以接着将待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配。其中，预设模型中可以包括多个已知的恶意文件及非恶意文件的URL的字符串。上述已知的恶意文件及非恶意文件的URL的字符串在预设模型中可以单独保存，也可以以树的结构形式(例如可以是字典树)保存。相应地，匹配模块502可以将预设模型中的URL逐条与待检测文件的URL进行字符串匹配，也可以以一个字符或多个字符为单元按照树的结构形式中包含的字符串进行字符串匹配。

在本实施例中，确定模块503可以接着基于待检测文件的URL在预设模型中匹配到的最长字符串，确定出待检测文件是否为恶意文件。在一些实现中，预设模型中的URL单独保存，匹配模块502可以将待检测文件的URL与预设模型中的URL逐个匹配，则确定模块503可以根据与待检测文件的URL具有最长的相匹配字符串的URL所对应的文件类型作为待检测文件的类型。在另一些实现中，预设模型中的URL以图2或图3a所示的字典树形式储存，匹配模块502可以将待检测文件的URL包含的字符串与字典树中节点处的字符逐个匹配，则确定模块503可以按照匹配到的最后一个字符的子树中包括的URL对应的恶意文件和非恶意文件的数量或比值确定待检测文件是否为恶意文件。

在本实施例的一些实现方式中，当预设模型中的URL以图2或图3a所示的字典树形式储存时，在所述字典树中：每条边对应一个字符串；每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的字符串按顺序拼接而成；每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值。其中，上述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在本实施例的一些实现方式中，确定模块可以包括：获取单元(未示出)，配置用于获取预设模型中与URL相匹配的最长字符串所达到的节点；读取单元(未示出)，配置用于读取最长字符串所达到的节点记录的数量或比值；确定单元(未示出)，配置用于基于数量或比值判断待检测文件是否为恶意文件。

在本实施例的一些实现方式中，确定单元还可以包括：比值获取子单元(未示出)，配置用于获取经过最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者根据数量计算经过最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；确定子单元(未示出)，判断比值是否大于预设阈值；以及，当大于预设阈值时，确定待检测文件为恶意文件；当不大于预设阈值时，确定待检测文件为非恶意文件。

在本实施例的一些实现方式中，检测恶意文件的装置500还可以包括字典树生成模块，字典树生成模块可以包括：字符串匹配单元(未示出)，配置用于将样本集中所包含的URL进行字符串匹配，并根据匹配结果获取样本集包含的URL的所有公共前缀字符串；字典树生成单元(未示出)，配置用于使字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL，以及，在字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

在本实施例的一些实现方式中，检测恶意文件的装置500还可以包括更新模块(未示出)，配置用于根据确定待检测文件是否为恶意文件的结果更新预设模型。在确定模块503确定待检测文件为恶意文件或非恶意文件后，更新模块可以将待检测文件的URL存入预设模型，并作为已知的恶意文件或非恶意文件对预设模型中的相关内容进行更新。

本领域技术人员可以理解，上述检测恶意文件的装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块，匹配模块和确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“配置用于获取下载待检测文件的统一资源定位符URL的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的检测恶意文件的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种检测恶意文件的方法，其特征在于，所述方法包括：

获取下载待检测文件的统一资源定位符URL；

将所述待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；

基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定所述待检测文件是否为恶意文件。

2.根据权利要求1所述的方法，其特征在于，所述预设模型包括通过样本集训练生成的字典树，其中，所述样本集包括已知的恶意文件的URL和已知的非恶意文件的URL。

3.根据权利要求2所述的方法，其特征在于，在所述字典树中：

每条边对应一个字符串；

每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的字符串按顺序拼接而成；

每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件包括：

根据所述路径匹配条件获取所述预设模型中与所述待检测文件的URL相匹配的最长字符串所达到的节点；

读取所述最长字符串所达到的节点记录的所述数量或比值；

基于所述数量或比值确定待检测文件是否为恶意文件。

5.根据权利要求4所述的方法，其特征在于，所述基于所述数量或比值确定待检测文件是否为恶意文件包括：

根据所述数量计算经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者获取经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；

判断所述比值是否大于预设阈值；

当大于预设阈值时，确定待检测文件为恶意文件；

当不大于预设阈值时，确定待检测文件为非恶意文件。

6.根据权利要求2-5中任一所述的方法，其特征在于，所述字典树包括通过以下方法将所述样本集训练生成的字典树：

将所述样本集中所包含的URL进行字符串匹配，并根据匹配结果获取所述样本集包含的URL的所有公共前缀字符串；

使所述字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL；

在所述字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据确定所述待检测文件是否为恶意文件的结果更新所述预设模型。

8.一种检测恶意文件的装置，其特征在于，所述装置包括：

获取模块，配置用于获取待检测文件的统一资源定位符URL；

匹配模块，配置用于将所述待检测文件的URL所包含的字符串与预设模型中的字符串进行匹配；

确定模块，配置用于基于所述待检测文件的URL在所述预设模型中匹配到的最长字符串，确定待检测文件是否为恶意文件。

9.根据权利要求8所述的装置，其特征在于，所述预设模型包括通过已知的恶意文件和非恶意文件的URL样本训练生成的字典树。

10.根据权利要求9所述的装置，其特征在于，在所述字典树中：

每条边对应一个字符串；

11.根据权利要求10所述的装置，其特征在于，所述确定模块包括：

获取单元，配置用于获取所述预设模型中与所述URL相匹配的最长字符串所达到的节点；

读取单元，配置用于读取所述最长字符串所达到的节点记录的所述数量或比值；

确定单元，配置用于基于所述数量或比值判断待检测文件是否为恶意文件。

12.根据权利要求11所述的装置，其特征在于，所述确定单元包括：

比值获取子单元，配置用于根据所述路径匹配条件获取经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值，或者根据所述数量计算经过所述最长字符串所达到的节点的全部路径中的恶意文件与非恶意文件的比值；

确定子单元，判断所述比值是否大于预设阈值；以及

当大于预设阈值时，确定待检测文件为恶意文件；

当不大于预设阈值时，确定待检测文件为非恶意文件。

13.根据权利要求9-12中任一所述的装置，其特征在于，所述装置还包括字典树生成模块，所述字典树生成模块包括：

字符串匹配单元，配置用于将所述样本集中所包含的URL进行字符串匹配，并根据匹配结果获取所述样本集包含的URL的所有公共前缀字符串；

字典树生成单元，配置用于使所述字典树的每条边对应一个公共前缀字符串，每条从根节点出发的路径对应一个字符串，路径中的字符串由路径中的边对应的公共前缀字符串按顺序拼接而成，每条从根节点到达终端节点的路径对应一个URL，以及，在所述字典树的每个节点存放满足路径匹配条件的非恶意文件和恶意文件的数量或比值，其中，所述路径匹配条件包括从根节点到该节点处的路径对应的字符串是文件的URL的前缀。

14.根据权利要求8中任一所述的装置，其特征在于，所述装置还包括更新模块，所述更新模块配置用于根据确定所述待检测文件是否为恶意文件的结果更新所述预设模型。