具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种下载文件的管理方法及装置,用以解决现有技术中缺少一种既能够识别出恶意文件,又能够对互联网上下载的各类文件进行有效管理的方法的问题。
图1示出了本发明实施例提供的下载文件的管理方法的流程图。如图1所示,该方法包括如下步骤:
步骤S110:监测到文件下载完成后,根据下载路径获取下载文件。
其中,每当监测到有文件下载完成之后,步骤S110就将被触发并执行,通过步骤S110的执行,能够根据下载文件的下载路径获取到刚刚下载完成的一个或多个文件。
步骤S120:对获取的下载文件进行扫描,以确定该下载文件的安全等级。
其中,对下载文件进行扫描时,可以灵活选用多种扫描方法进行扫描,例如扫描URL地址、扫描文件头和/或扫描文件名后缀等多种方式,只要能够根据扫描结果确定出刚刚下载完的文件的安全等级即可。其中,下载文件的安全等级可以包括:安全级、未知级和危险级。
步骤S130:根据该下载文件的安全等级,为该下载文件设置与该安全等级对应的管理操作入口。
其中,如果下载文件为安全级,则其对应的管理操作入口包括打开入口,以便用户能够直接打开该安全级下载文件,而不必担心中毒或受骗;如果下载文件为危险级,则该下载文件将被直接删除,因此,其对应的管理操作入口包括恢复入口,以便用户能够在必要时对已删除的危险下载文件进行恢复;如果下载文件为未知级,则其对应的管理操作入口包括隔离打开入口,以便用户能够隔离打开该未知级下载文件,从而将用户计算机中毒的风险降至最低。
由此可见,在上述的下载文件管理方法中,每当监测到有文件下载完成时,就会获取该下载文件并对该下载文件进行扫描,以便确定出该下载文件的安全等级,因而能够在第一时间发现携带病毒或欺诈内容的恶意文件,将用户蒙受损失的风险降至最低。另外,在上述的下载文件管理方法中,还会进一步根据下载文件的安全等级,为其设置相应的管理操作入口,从而方便用户管理下载文件。
图2示出了本发明另一具体实施例提供的下载文件的管理方法的流程图。如图2所示,该方法包括如下步骤:
步骤S210:监测到文件下载完成后,根据下载路径获取下载文件。
具体地,每当有文件下载完成时,步骤S210及其后续步骤就将被触发。下面给出步骤S210的一种可能的实现方式如下:预先通过编程的方式设置一个用于监控是否有文件下载完成的监控模块(例如可以通过动态库等形式来实现该监控模块),将该监控模块注入到客户端所安装的各个下载工具中,以便监控各个下载工具是否执行并完成了一次下载操作。具体注入时,可以通过全局的CBT HOOK(钩子)来实现。或者,也可以由各个下载工具调用预设的Windows API来加载该监控模块,以便实现该监控模块的注入。例如,在本实施例中,可以将该监控模块分别注入到客户端上安装的MSN、聊天室等聊天软件,以及360浏览器或遨游浏览器等各类浏览器,以及迅雷下载、360下载等各类下载软件上,以便能够监控到通过任何途径下载的文件。这样一来,每当有某一下载工具完成了一个下载行为时,就会被上述的监控模块捕获到这一行为,继而触发本方法中的后续操作步骤。也就是说,在本实施例中,只要监测到了下载文件下载完成这一下载行为就会触发步骤S210及其后续步骤,不需要去访问各个下载工具的注册表等相关信息。
除了上述实现方式之外,本领域技术人员也可以通过其他的方式来实现步骤S210的操作,例如,可以在下载保镖等安全防护软件的基础上实现本发明,每当下载保镖等安全防护软件识别到下载文件后就启用本发明中的方法进行管理,总之,本发明对步骤S210的实现方式不作限定。
步骤S220:确定上述下载文件的下载信息,将下载信息保存到预设的下载日志中。
具体地,在步骤S210中根据下载路径获取到下载文件之后,还需要在步骤S220中进一步获取该下载文件的各项下载信息,这些下载信息可以包括以下信息中的一项或多项:文件名、文件类型、对应的下载工具、存储位置以及下载时间。其中,文件名可以直接根据下载文件本身的名称得到,文件类型可以根据下载文件的文件名后缀等信息得到(也通过其他的类型分析方式得到),对应的下载工具即为该下载文件在下载时所采用的下载工具,存储位置可以根据下载路径得到,下载时间可以根据下载文件下载完成时的系统时间得到。
为了能够更加准确地获取到这些下载信息,可选地,在本方法中,还可以预先设置并存储一个下载工具特征库,在该下载工具特征库中存储有各个下载工具在下载文件时的行为特征,例如,在下载工具特征库中存储的下载工具A的行为特征包括:下载完文件之后,对下载到的文件执行“重命名”的操作;在下载工具特征库中存储的下载工具B的行为特征包括:下载完文件之后,对下载到的文件执行“另存为”的操作;在下载工具特征库中存储的下载工具C的行为特征包括:下载完文件之后,对下载到的文件执行“打开”的操作等。由此可见,通过查询下载工具特征库,就可以清楚地了解各个下载工具在下载完成之后可能执行的操作步骤,从而能够更加准确地获取下载文件的上述下载信息。例如,对于由下载工具A下载到的文件,由于下载工具A在下载到文件之后要执行重命名操作,因此,在获取文件名时需要区分获取到的文件名是重命名之前的文件名还是重命名之后的文件名,只有重命名之前的文件名才是该下载文件最原始的文件名。
在步骤S220中获取的下载文件的下载信息除了上面描述的信息之外,还可以包括其他的信息,例如,下载文件的文件大小(字节数)、内容概要、主题名称等各类信息。
另外,在步骤S220中获取到上述下载信息之后,还要进一步将这些下载信息保存到预设的下载日志中,以便于在后续过程中进行查询。在下载日志中存储这些下载信息时,可以将一个下载文件对应的下载信息存储为一条存储条目,在该条存储条目中,将每项下载信息分别作为该条存储条目中的一个信息项。在后续查询时,可以按照各个信息项进行查询。
步骤S230:对上述下载文件进行扫描,以确定下载文件的安全等级。
其中,对下载文件进行扫描时,主要是判断该下载文件是否属于病毒文件或欺诈文件,具体的判断方式可采用多种方式,由于具体的扫描细节会涉及到多种情况,因此,为了描述的紧凑性,本文将在该实施例的最后部分集中介绍一种可能的扫描方式,此处暂时略去对扫描细节的描述。
另外,在步骤S230中,还可以进一步将确定出的安全等级作为一个信息项存储到步骤S220中提到的下载日志中。
步骤S240:根据下载文件的安全等级,为下载文件设置与该安全等级对应的管理操作入口。
其中,下载文件的安全等级可以包括安全级、未知级、可疑/高度可疑级、以及危险级等多种等级。具体地,可以根据文件的综合得分来确定其安全等级,例如可以设置得分在10-29之间的文件为安全级(该等级的文件为白文件),得分在30-49之间的文件为未知级(该等级的文件为灰文件),得分在50-69之间的文件为可疑/高度可疑级(该等级的文件为可疑文件),得分大于或等于70的文件为危险级(该等级的文件为恶意文件)。当然,还可以设置其他形式的安全等级,本发明对此并不加以限制。具体实现时,可以由服务器预先将各个安全等级的划分规则下发给客户端,客户端再依据服务器下发的划分规则来确定下载文件的安全等级。
具体地,安全级对应的管理操作入口包括打开入口、备份入口和删除入口等;未知级对应的管理操作入口包括隔离打开入口、备份入口和删除入口等;危险级对应的管理操作入口包括恢复入口、备份入口和删除入口等。由此可见,备份入口和删除入口是各个安全等级都具备的管理操作入口,也就是说,无论下载文件属于安全级还是危险级,都可以通过本方法中提供的相应管理操作入口方便地对其执行备份操作或删除操作。其中,备份入口既可以是将下载文件备份到客户端本地,也可以是将下载文件进一步备份到云端服务器上,以便在客户端故障时也能查询到该下载文件,并且备份到云端服务器上还可以实现下载文件的共享操作。
对于安全级的下载文件来说,其独有的管理操作入口为打开入口,通过该入口可以直接打开下载文件,由于已经判断出下载文件是安全的,因此此处提供的打开入口并不会对用户的计算机造成任何威胁。对于未知级的下载文件来说,其独有的管理操作入口为隔离打开入口,通过该入口可以对下载文件进行隔离打开,在隔离打开的过程中,即使文件本身携带病毒也不会传染给用户的计算机,因此能够显著降低未知文件对用户计算机的威胁。对于危险级的下载文件来说,其独有的管理操作入口为恢复入口,具体原因在于:在本方法中,如果扫描出下载文件属于危险级,则会直接将其删除,以便最大程度地保护用户计算机,在下载文件被删除之后,用户还可以通过恢复入口找回已删除的下载文件,从而实现防止误操作的目的。
由此可见,为每个下载文件设置管理操作入口时,是根据下载文件的安全等级来确定要设置的管理操作入口的类型和数量的,从而能够满足各种安全等级的文件的不同需求。
图3示出了不同安全等级的下载文件所对应的管理操作入口的示意图。如图3所示,第一个下载文件为危险级,因而其对应的管理操作入口包括“打开恢复区”这一恢复入口;第二个和第三个下载文件为未知级,因而其对应的管理操作入口包括“隔离打开”入口;第四个至第六个下载文件为安全级,因而其对应的管理操作入口包括“打开”入口。
另外,参见图3可知,在步骤S240中,还可以进一步显示步骤S220中保存在下载日志中的各项下载信息,以便用户全面了解该下载文件的具体情况。例如,在图3中,对于每个下载文件,还分别显示出了该下载文件所对应的下载工具以及下载时间等下载信息。
上述的步骤S210至步骤S240中的操作可以在每次下载完文件之后执行,以便显示出刚刚下载完的文件的相关信息,并便于用户通过管理操作入口来管理刚刚下载完的文件。
另外,为了便于用户对所有已下载的文件进行统一管理,本发明实施例中的方法还可以进一步包括下述的步骤S250,该步骤S250可以是一个预先执行的步骤,其目的在于对当前所有的已下载文件进行统一管理。
步骤S250:设置按下载信息显示各个下载文件及每个下载文件的管理操作入口的功能选项。其中,上述功能选项进一步包括:按文件类型显示选项、按下载工具显示选项、以及按下载时间显示选项。
通俗地说,步骤S250的作用在于:在用户计算机的显示界面上设置一个或多个功能选项,当用户点击这些功能选项时,就可以通过这些功能选项来统一管理当前所有的已下载文件。例如,图3示出了“按下载时间整理”、“按文件类型整理”以及“按下载工具整理”这三个功能选项。假设用户执行了点击“按下载时间整理”的功能选项的动作,该动作将触发该功能选项向后台程序发送一个按照下载时间来显示各个下载文件以及每个下载文件的管理操作入口的指令,后台程序接收到该指令之后,则会查询步骤S220中存储的下载日志,并在下载日志中按照“下载时间”这一信息项对所有的存储条目进行排序,然后根据排序后的结果来显示各个下载文件以及每个下载文件的管理操作入口。这样,用户就可以按照下载时间从新到旧(或从旧到新)的顺序来浏览所有的已下载文件,从而便于用户按照时间顺序来查找某个已下载文件。并且,由于显示出的每个已下载文件都对应着相应的管理操作入口,例如,对于一个安全级的下载文件来说,其对应着打开入口、备份入口以及删除入口等入口;对于一个未知级的下载文件来说,其对应着隔离打开入口、备份入口以及删除入口等入口,因此,用户还可以方便地对查找到的已下载文件执行管理操作。
由此可见,步骤S250是一个预先设置好的步骤,该步骤的作用在于向用户提供按照下载信息来查询所有已下载文件的功能。每当用户点击步骤S250中设置的功能选项时,相应的功能就将被启用。在本发明中,对用户点击步骤S250中设置的功能选项的时机不作限定,用户可以根据自身的需求在任何时候点击相应的功能选项,以便启用对应的查询功能。
通过本发明提供的下载文件的管理方法,能够首先确定出下载文件的安全等级,以便杜绝恶意文件对用户造成的损害;其次,还可以为各个下载文件分别设置与其安全等级对应的管理操作入口,以便于用户即时管理刚刚下载完的文件;另外,在本发明中,还提供了多个功能选项,以便按照下载信息的类型来查询并管理已下载文件。由此可见,用户通过本发明提供的方法,可以实现对所有已下载文件(无论其属于安全级文件还是危险级文件)进行管理的功能,从而为用户提供了便利。
最后,集中介绍一下本发明实施例中的步骤S230的一种可能的实现方式。图4示出了在该种实现方式中,步骤S230所包含的下述各个子步骤:
步骤S231:扫描并获取与下载文件的文件内容相对应的文件特征信息。
步骤S232:查询预设的本地特征信息库,根据预设规则(例如正则表达式规则和/或字符串匹配规则等)判定文件内容对应的文件特征信息是否与该本地特征信息库中存储的信息项匹配。
其中,步骤S231中提到的文件特征信息可以包含多种实现方式,相应地,步骤S232中提到的本地特征信息库中存储的信息项的具体内容是与文件特征信息的实现方式相对应的。下面就给出文件特征信息的下述三种实现方式:
在第一种实现方式中,下载文件的文件内容所对应的文件特征信息是指:该文件内容对应的URL地址。这里,对于MHT格式的网页文件来说,文件内容对应的URL地址通常是指在文件内容(即网页文件的文件正文)中所包含的一个或多个URL地址,这些URL地址既可以采用可点击的超链接形式实现,也可以采用能够被复制的文本形式实现。对于其他的网页文件来说,文件内容对应的URL地址除了包括文件内容中所包含的一个或多个URL地址之外,还可以包括该网页文件本身的URL地址(即出现在该网页文件的地址栏中的URL地址,通过该地址能够打开该网页文件)。相应地,本地特征信息库中存储的信息项包括:多个安全等级的URL信息项。其中,安全等级至少包括危险级和安全级。优选地,还可以对安全等级进行更多层次的划分,以便准确地确定出某一下载文件的危险指数。例如,可以将安全等级按照危险指数从高到低的顺序进一步划分为危险级、可疑级、未知级和安全级四个等级(具体参见步骤S240中的描述),每个等级分别对应一个或多个URL信息项。其中,每个等级所对应的各个URL信息项既可以是完整的URL地址,也可以是URL地址中所包含的部分片段。具体地,在获取每个等级所对应的URL信息项时,可以通过机器学习算法对预设数量的样本进行分析得到。
在第二种实现方式中,下载文件的文件内容所对应的文件特征信息是指:该文件内容中包含的明文字符串。例如,文件内容中包含的以明文形式出现的中文字词、英文单词等均可以作为明文字符串。具体地,在获取这些明文字符串时,只需对文件内容进行分词处理即可。相应地,本地特征信息库中存储的信息项包括:多个安全等级的明文字符串集合。其中,安全等级可直接参照上面的划分方式进行划分,每个等级分别对应一个或多个明文字符串集合。例如,由“幸运用户”和“中奖”这两个明文字符串所构成的集合就可以作为危险级所对应的一个明文字符串集合,如果一个下载文件中包含该明文字符串集合,则很可能表示该下载文件为“钓鱼文件”。所谓“钓鱼文件”是指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。具体地,在获取每个等级所对应的明文字符串集合时,也可以通过机器学习算法对预设数量的样本进行分析得到。
在第三种实现方式中,下载文件的文件内容所对应的文件特征信息是指:文件内容对应的文件页面元素。这里提到的文件页面元素主要包括:图片、文本特征和网页链接等内容。第三种实现方式与第二种实现方式的主要区别在于:文件页面元素的概念与明文字符串的概念相比,前者所涵盖的内容更多更丰富,因而能够更全面地体现出文件的特征。例如,在本实施例中,可以通过文档对象模型DOM树来表示上述的文件页面元素。通过DOM树能够清楚地反映出一篇文档的页面结构和页面内容。在介绍DOM树的结构之前,先介绍一下网页文件的常见结构:在网页文件上包括多块内容,例如显示的文本内容(如关于该网页主题的文字表述),URL内容、显示的图片内容、视频内容等。每块内容对应一个页面组件,各页面组件有各自不同的数据内容,数据内容记载了该页面组件在页面上展示的结构和样式。以图片内容为例,其对应的页面组件的数据内容中包含在页面上展示的图片大小、图片标题相对于图片的位置、图片标题的文本格式,该文本格式包括字体大小、颜色、字体类型等。模块列表中包含了各页面组件模块的数据内容,数据内容包括超文本标记语言(HTML,HyperText Mark-up Language)、层叠样式表(CSS,Cascading Style Sheet)和javascript组装脚本等表现方式;模块列表中的页面组件模块可采用表格方式排列,也可采用图形方式表示各页面组件模块。DOM树就是一种通过树状结构来描述上述的网页文件结构的方式。在构建DOM树时,需要对文档进行分析,获取其中的根元素以及各个元素,据此明确整篇文档的结构,其中,根元素可以通过html标识,元素可以通过head、body、title等字节来标识;然后,还要获取各个元素对应的文本内容,该文本内容包括图片、链接等,据此明确整篇文档所表述的内容。由此可见,通过DOM树表示文件页面元素的方式能够全面地反应出一篇文档所包含的内容,因而不会遗漏任何钓鱼内容等恶意信息,达到全面扫描的目的。
相应地,在第三种实现方式中,本地特征信息库中存储的信息项包括:多个安全等级的页面元素模板。其中,安全等级可以参照前两种实现方式中的划分方式进行划分。这里,页面元素模板也可以通过DOM树来表示。例如,可以将危险级的文件所对应的DOM树作为一个危险级的页面元素模板,将安全级的文件所对应的DOM树作为一个安全级的页面元素模板。具体地,在获取每个等级所对应的页面元素模板时,也可以通过机器学习算法对预设数量的样本进行分析得到。
上述的三种实现方式既可以单独使用,也可以进行任意组合后使用。优选地,为了实现更好地查杀效果,可以在本实施例中同时使用上述的三种方式,相应地,在本地特征信息库中同时包含上述三种形式的信息项。
下面以上述的第二种实现方式为例,详细介绍一下通过机器学习的方式来确定出本地特征信息库中的各个等级所对应的明文字符串集合的各个步骤:
第一步:预先获取各个安全等级的样本,提取每个样本的明文字符串集合。
本步骤中预先收集多个已确定出不同的安全等级的网页作为样本。具体收集时,既可以在网络侧通过网络蜘蛛来抓取安全网页或恶意网页,也可以在客户端侧收集用户或技术人员提交的安全网页或恶意网页。其中,网络蜘蛛通过网页的链接地址来寻找网页,可以预置一些安全网页的网址,网络蜘蛛从已知的安全网站的某一个页面(通常是首页)开始,读取网页的内容,提取该网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。收集到上述网页之后,分别从每个网页的文件内容中提取明文字符串。例如,针对文件内容中的某个语句“hello恭喜您中奖了”,可以拆分为如下的十个明文字符串:
Hello
恭喜喜您您中中奖奖了
恭喜您喜您中您中奖中奖了
在具体的实现中,每个明文字符串中所包含的字符个数可以依据具体的需要设定。
第二步:合并符合预设相似条件的明文字符串。
由于每个网页都包含大量的明文字符串,其中,有很多冗余的信息,例如:恭喜和恭喜您,含义相近,其表征作用相近,可以做合并处理。具体合并时,可采用如下方式合并:首先,针对任意两个明文字符串,提取这两个明文字符串的最长公共子串;然后,若该最长公共子串的字符个数符合第一预设范围,且这两个明文字符串在安全网页和危险网页中总共出现的次数的差值符合第二预设范围,则删除在各个安全网页和危险网页中总共出现的次数较小的明文字符串。例如,“中华人民共和国”和“人民共和时代”的最长公共子串为“人民共和”。提取最长公共子串后,进一步判断,这两个明文字符串的最长公共子串的字符个数是否符合第一预设范围,并且,这两个明文字符串在安全网页和危险网页中总共出现的次数的差值符合第二预设范围。具体而言,第一预设范围是指最长公共子串的字符个数,不超过两个明文字符串中任意一个的字符个数的预设比例(例如2/3),例如,“人民共和”包含4个字符,未超过“中华人民共和国”或“人民共和时代”的字符个数的2/3。第二预设范围是指,两个明文字符串在安全网页和危险网页中总共出现的次数的差值,小于较高出现次数的预设比例(例如1/10)。例如,“中华人民共和国”在安全网页和危险网页中总共出现的次数为100次,“人民共和时代”在安全网页和危险网页中总共出现的次数为50次,两者次数的差值为50次,较高出现次数为100次的预设比例1/10为10次,因此,差值50次超过了预设比例。若两个明文字符串满足如上的条件,则删除在安全网页和危险网页中总共出现的次数较小的一个明文字符串。在本发明实施例中,可以通过LCS(Longest Common Subsequence,最长公共子序列)算法提取两个明文字符串的最长公共子串,由于该算法是本领域技术人员所熟知的,因此略去对具体算法的说明。另外,在本步骤中,也可以对大量的明文字符串做一些归一化的处理等操作。
本发明实施例中,对提取的明文字符串中任意两个表征信息进行比较,舍去符合上述条件的明文字符串后,可以循环重复执行合并的步骤,直至任意两个明文字符串均不符合预设相似条件,或是明文字符串的个数满足预设个数为止。
第三步:统计合并后的各个明文字符串对划分安全网页和危险网页的表征参数,并依据该表征参数筛选多个明文字符串作为网页危险性(或安全性)的表征信息。
具体地,对明文字符串进行合并后,进一步需要筛选其中表征参数符合要求的明文字符串。表征参数是明文字符串对划分安全网页和危险网页的衡量参数。表征参数可以是明文字符串与危险网页的相关性参数,也可以是明文字符串对划分安全网页和危险网页的权重参数。在本发明实施例中,将相关性参数和权重参数结合起来对明文字符串进行筛选:首先,分别统计合并后的各个明文字符串与危险网页的相关性参数,并筛选相关性参数从大到小排序靠前的明文字符串;然后,分别统计筛选后的各个明文字符串对划分安全网页和危险网页的权重参数,并筛选权重参数从大到小排序靠前的明文字符串。通过相关性参数和权重参数对明文字符串做两次筛选,首先计算各个明文字符串与危险网页的相关性参数,然后筛选相关性参数从大到小排序靠前的明文字符串。具体的,可以依据合并后的各个明文字符串在安全网页和危险网页中分别出现的次数,通过卡卡方检验法,计算各个明文字符串与危险网页的相关性参数。并且,通过分类器计算各个明文字符串对划分安全网页和危险网页的权重参数,依据权重参数进行进一步的筛选。依据统计结果可以构建安全网页和危险网页的分类函数,例如,可以通过支持向量机线性分类器(support vectormachine,SVM)构建安全网页和危险网页的分类函数。本发明实施例中,假设所有的明文字符串和目标(正常网页和恶意网页)是呈线性关系的,线性SVM分类器最终的输出是高维空间的一个超平面,在超平面的函数表达式中,对每一维都会有一个不同的权重参数,利用这个权重的高低对明文字符串进行筛选。本发明实施例中,先用卡方检验法对候选发明信息进行筛选,再用SVM分类器再次进行筛选,从而得出对划分安全网页和危险网页表征参数较优的表征信息。传统的信息选择方式是针对人工选择的特征进行进一步的筛选,这种方式无法应对更新频率极快的网页结构。本发明实施例采用的是一种数据驱动的表征信息选择方式,所有的表征信息都是通过对已知数据的统计分析得到,相比于人工筛选信息,本发明实施例大大提高了信息提取的效率。
第四步:依据上述表征信息训练不同安全等级的明文字符串集合,并将训练出的明文字符串集合依据其对应的安全等级存储到本地特征信息库的相应位置。
上面描述的通过机器学习方式来得到本地特征信息库中的各个安全等级的信息项的方式仅为示意性的,本领域技术人员还可以灵活选择其他机器学习方式来获得本地特征信息库中的各个安全等级的信息项。而且,除了第二种实现方式中的明文字符串之外,另外两种实现方式中的不同安全等级的URL地址以及DOM模型也都可以通过机器学习的方式来得到。
步骤S233:根据文件内容对应的文件特征信息与上述本地特征信息库中存储的信息项的匹配结果来确定下载文件的安全等级。由于本实施例中的文件特征信息包括上面提到的URL地址、明文字符串以及DOM树,因此,需要将这三项信息分别与本地特征信息库中的相应信息项进行匹配,如果这三项信息中的至少一项信息与本地特征信息库中的危险级的信息项相匹配,则表明该下载文件的安全等级为危险级,此时,可以直接提示给用户,由用户选择是否删除;或者,也可以在确定出该文件为危险级时直接删除该文件。如果这三项信息分别与本地特征信息库中的安全级的信息项相匹配,则表明该下载文件的安全等级为安全级,此时,可提示用户放心下载。具体地,在匹配时,可以通过正则表达式匹配、字符串匹配、相似度匹配等多种方式来匹配。
通过上述扫描方式,能够在扫描时对下载文件的文件内容进行分析,并据此提取出URL地址和/或明文字符串,甚至还可以进一步构建出下载文件的DOM树,由此能够全面分析下载文件的文件特征,由此发现恶意文件。本发明实施例提供的方法尤其适用于对钓鱼网页的扫描。
另外,在步骤S230中,除了上面介绍的在客户端本地对下载文件进行扫描的实现方式之外,还可以进一步应用云安全服务器来实现扫描。为此,步骤S230还可以进一步包括步骤S234。在步骤S234中,当根据匹配结果确定下载文件的安全等级为危险级时,进一步将该下载文件的文件特征信息上报给云安全服务器。例如,当确定某一下载文件的安全等级为危险级时,将该下载文件的文件特征信息(包括URL地址、明文字符串和/或DOM树)上报给云安全服务器。同理,当确定某一下载文件的安全等级为安全级时,也可以将该下载文件的文件特征信息上报给云安全服务器。相应地,在云安全服务器上也维护有一个云端特征信息库,该云端特征信息库中同样存储有多个安全等级的信息项(包括URL地址、明文字符串和/或DOM树)。另外,由于每个客户端都会在扫描结束后向云安全服务器汇报其最新发现的危险级或安全级的信息项,因而,云端特征信息库中的内容是不断更新的,因而,通过云端特征信息库能够对不同等级的信息项进行全面汇总。相应地,各个客户端都可以分享到云端特征信息库中的汇总结果。例如,各个客户端可以每隔预设的时间间隔向云安全服务器请求最新的云端特征信息库中的内容,以便对其本地的特征信息库进行更新。或者,也可以由客户端在本地特征信息库无法判断某一下载文件的安全等级时,进一步查询云安全服务器,以便获知查询结果,此时,步骤S230还可以进一步包括步骤S235。
在步骤S235中,当下载文件对应的文件特征信息与本地特征信息库中存储的信息项不匹配时,将该文件特征信息发送给云安全服务器;根据云安全服务器返回的查询结果,确定下载文件的安全等级;并且,根据该查询结果进行文件特征信息的分析和提取,根据分析和提取的结果,更新本地特征信息库中存储的信息项。
由此可见,当步骤S230通过上述方式实现时,能够结合多项内容来判断下载文件的安全性,例如,可以结合URL地址、明文字符串、DOM树等内容来进行判断,因此,能够发现任何隐含的钓鱼信息等恶意信息,即使对于本身没有URL地址的MHT等网页文件也可以通过对文件内容的分析来判断其是否为恶意文件,因此,大幅提高了扫描的准确性和全面性。而且,由于在步骤S230中可以通过机器学习的方式来生成特征信息库中的各个信息项,因此,在后续的判断过程中,对于新出现的恶意网页,也可以通过该网页与特征信息库中的各个信息项之间的相似度来确定其安全等级,因而能够检测到新出现的恶意网页,因此能够对更新迅速且千变万化的恶意网页进行防范。
除了上面描述的扫描方式之外,在步骤S230中,还可以进一步根据文件类型来设置扫描策略。此时,在步骤S230的执行过程中,需要先判断出下载文件的文件类型,然后,针对不同的文件类型来执行对应的扫描策略。例如,如果判断出下载文件为PE类型的文件,则需要先计算该文件的MD5值和/或QVM(QihooSupportVectorMachine,支持向量机)特征等,然后根据计算结果确定扫描策略;如果判断出下载文件为图片类型的文件,则需要查询一下预设的图片库,以便确定该图片的安全等级;如果判断出下载文件为压缩类型的文件,则需要先对压缩包进行解压操作,然后再针对解压出来的文件执行上述操作。
这里,对于压缩包格式的下载文件来说,在步骤S230的扫描过程中可以将解压缩之后的文件信息保存到本地(例如,可以通过提示用户执行“扫描并解压”的操作来实现),这样,在扫描的同时就可以完成解压的操作,当用户在后续过程中要用到该压缩包格式的下载文件时,无需重复执行解压操作,由此为用户提供了便利。具体地,为了实现扫描同时解压的目的,可以进一步在数据库中添加压缩包的信息记录,该压缩包的信息记录可以包括下面信息中的一种或多种,比如该压缩包的下载来源、压缩包的存放路径、压缩包的特征标识等。其中,下载来源主要包括该压缩包下载过程涉及的各种相关信息中的一种或多种,比如下载工具类型、下载URL(Uniform Resource Locator,统一资源定位符)及网页URL等,除了此处列举的之外,如果还有其他可以在下载过程中或下载完成时获取的信息,也都可以记录下来。上面提到的下载工具类型一般是指压缩包等下载文件是通过什么途径下载的,比如即时通讯工具、邮件客户端等,例如,可以支持Outlook/Foxmail等邮件客户端,还可以进一步的支持WEB浏览器,IE/Chrome等专用下载工具,迅雷/电驴等下载工具等。
其中,压缩包的格式可以包括ace、winrar、ar、ip、tar、cab、uue、jar、iso、z、7-zip、lzh、arj、gzip、bz2等多种格式。可通过如下方式获得压缩包的格式:首先,监控程序的进程创建操作;然后,获取被创建进程执行时的命令行参数;其次,根据被创建进程执行时的命令行参数,得到压缩包对应的被创建进程的进程路径;最后,根据进程路径包含的进程文件的文件名,得到压缩包的压缩格式。其中,监控进程创建操作的具体方式可以有很多种,例如捕获进程创建的相关函数。通过监控进程创建操作,不但可以获得被创建进程执行时的命令行参数,还可以获得被创建进程的进程路径。另外,解压缩进程在解压出一个文件时,还会生成与文件相关的其他信息,比如文件名称信息、文件描述信息、文件大小信息、文件版本信息、文件特征值信息、内部名称信息、公司名称信息、版权声明信息、产品名称信息、产品版本信息、数字签名公司信息,以及待执行程序创建的进程的命令行信息、进程路径信息和父进程路径信息等,这些信息都可以记录到预设的解压缩数据库。并且,本发明中提到的下载文件不仅包括上述直接解压缩出来的文件,还包括衍生文件、在文件执行过程中加载的其他文件、以及通过多层进程生成的文件等。而且,下载文件还可能是可执行文件(PE文件),也可能是非可执行文件。其中,可执行文件包括但不限于exe类文件、脚本文件、批处理文件以及link文件等。
综上所述,本发明提供的下载文件的管理方法既能够实现高效准确地文件扫描,又能够针对扫描后的文件提供对应的管理操作入口,以方便用户的管理操作。
另外,在本发明中,通过下载日志保存了用户的所有下载行为,基于该下载日志,可以建立各个下载文件之间的关系链,从而根据该关系链拦截恶意文件。例如,对于一个通过下载得到的文件,查询下载日志后就可以知道该下载文件是通过聊天工具传输过来的,还是通过某一下载工具下载下来的,而且还可以确定该下载文件下载时所对应的下载链,这里,下载链是指由该下载文件下载之前和之后所下载的文件构成的链表,由此能够建立起一个便于防御的关系链。例如,假设在淘宝购物的场景下,用户通过聊天工具接收了一个PE文件,这时,就可以根据下载日志对该PE文件进行重点监控,比如监控它移动到了哪个位置,做了哪些敏感操作(例如直接运行,修改注册表等危险操作),这样,一旦该文件执行了敏感操作就将被拦截,由此提高了拦截恶意文件时的针对性。除此之外,通过下载日志还可以获取到下载文件的下载来源,并据此将误删除的文件找回。另外,如果通过下载日志表明用户经常从某一网站下载文件,也可以对该下载网站进行收藏,以方便用户的使用。总之,利用下载日志中保存的信息项能够进行多种有益的操作。
图5示出了本发明实施例提供的下载文件的管理装置的结构图。如图5所示,该管理装置500包括:获取模块51、扫描模块52以及管理模块53。
其中,获取模块51在监测到文件下载完成后,根据下载路径获取下载文件。
扫描模块52对下载文件进行扫描,以确定该下载文件的安全等级。
管理模块53根据下载文件的安全等级,为下载文件设置与该安全等级对应的管理操作入口。
其中,下载文件的安全等级包括:安全级、未知级和危险级,其中,安全级对应的管理操作入口包括打开入口,危险级对应的管理操作入口包括恢复入口,未知级对应的管理操作入口包括隔离打开入口。另外,与安全级、危险级和/或未知级对应的管理操作入口还包括:备份入口和删除入口。
可选地,该装置500进一步包括:日志存储模块54,用于确定下载文件的下载信息,将下载信息保存到预设的下载日志中,其中,下载信息包括:文件名、文件类型、对应的下载工具、存储位置和/或下载时间。相应地,管理模块53进一步适于:设置按下载信息显示各个下载文件及每个下载文件的管理操作入口的功能选项,该功能选项进一步包括:按文件类型显示选项、按下载工具显示选项、以及按下载时间显示选项。
其中,扫描模块52具体适于:扫描并获取与下载文件的文件内容相对应的文件特征信息;查询预设的本地特征信息库,根据预设规则判定文件内容相对应的文件特征信息是否与本地特征信息库中存储的信息项匹配;根据匹配结果确定下载文件的安全等级。其中,文件内容相对应的文件特征信息包括:下载文件对应的URL地址,则本地特征信息库中存储的信息项包括:多个安全等级的URL信息项;和/或,文件内容相对应的文件特征信息包括:下载文件中包含的明文字符串,则特征信息库中存储的信息项包括:多个安全等级的明文字符串集合;和或,文件内容相对应的文件特征信息包括:所述下载文件对应的文件页面元素,该文件页面元素进一步包括:图片、文本特征和网页链接,则本地特征信息库中存储的信息项包括:多个安全等级的页面元素模板;其中,文件页面元素以及页面元素模板通过文档对象模型DOM树表示。
上述各个模块的具体工作过程可参照方法实施例中相应部分的描述,此处不再赘述。
在本发明提供的下载文件的管理方法及装置中,每当监测到文件下载完成后,就会根据下载路径获取到刚刚下载完的下载文件,并对该下载文件进行扫描,以便确定出该下载文件的安全等级,从而能够识别出恶意文件。然后,在本方法及装置中,还会进一步根据确定出的下载文件的安全等级,为该下载文件设置与其安全等级相对应的管理操作入口,用户直接通过这些管理操作入口就可以对下载文件进行管理,从而简化了管理操作的复杂度,为用户提供了便利。由此实现了既能够识别出恶意文件,又能够对互联网上下载的各类文件进行有效管理的技术效果。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明还提供了A1、一种下载文件的管理方法,包括:
监测到文件下载完成后,根据下载路径获取下载文件;
对所述下载文件进行扫描,以确定所述下载文件的安全等级;
根据所述下载文件的安全等级,为所述下载文件设置与该安全等级对应的管理操作入口。
A2、如A1所述的方法,其中,所述下载文件的安全等级包括:安全级、未知级和危险级,其中,安全级对应的管理操作入口包括打开入口,危险级对应的管理操作入口包括恢复入口,未知级对应的管理操作入口包括隔离打开入口。
A3、如A2所述的方法,其中,与安全级、危险级和/或未知级对应的管理操作入口还包括:备份入口和删除入口。
A4、如A1所述的方法,其中,根据下载路径获取下载文件的步骤之后进一步包括步骤:确定所述下载文件的下载信息,将所述下载信息保存到预设的下载日志中,其中,所述下载信息包括:文件名、文件类型、对应的下载工具、存储位置和/或下载时间。
A5、如A4所述的方法,其中,进一步包括:设置按下载信息显示各个下载文件及每个下载文件的管理操作入口的功能选项,所述功能选项进一步包括:按文件类型显示选项、按下载工具显示选项、以及按下载时间显示选项。
A6、如A1-5任一所述的方法,其中,所述对所述下载文件进行扫描,以确定所述下载文件的安全等级的步骤具体包括:
扫描并获取与所述下载文件的文件内容相对应的文件特征信息;
查询预设的本地特征信息库,根据预设规则判定所述文件内容相对应的文件特征信息是否与所述本地特征信息库中存储的信息项匹配;
根据匹配结果确定所述下载文件的安全等级。
A7、如A6所述的方法,其中,所述文件内容相对应的文件特征信息包括:所述下载文件对应的URL地址,则所述本地特征信息库中存储的信息项包括:多个安全等级的URL信息项;和/或,
所述文件内容相对应的文件特征信息包括:所述下载文件中包含的明文字符串,则所述特征信息库中存储的信息项包括:多个安全等级的明文字符串集合;和或,
所述文件内容相对应的文件特征信息包括:所述下载文件对应的文件页面元素,所述文件页面元素进一步包括:图片、文本特征和网页链接,则所述本地特征信息库中存储的信息项包括:多个安全等级的页面元素模板;其中,所述文件页面元素以及页面元素模板通过文档对象模型DOM树表示。
B8、一种下载文件的管理装置,包括:
获取模块,适于在监测到文件下载完成后,根据下载路径获取下载文件;
扫描模块,适于对所述下载文件进行扫描,以确定所述下载文件的安全等级;
管理模块,适于根据所述下载文件的安全等级,为所述下载文件设置与该安全等级对应的管理操作入口。
B9、如B8所述的装置,其中,所述下载文件的安全等级包括:安全级、未知级和危险级,其中,安全级对应的管理操作入口包括打开入口,危险级对应的管理操作入口包括恢复入口,未知级对应的管理操作入口包括隔离打开入口。
B10、如B9所述的装置,其中,与安全级、危险级和/或未知级对应的管理操作入口还包括:备份入口和删除入口。
B11、如B8所述的装置,其中,进一步包括:日志存储模块,适于确定所述下载文件的下载信息,将所述下载信息保存到预设的下载日志中,其中,所述下载信息包括:文件名、文件类型、对应的下载工具、存储位置和/或下载时间。
B12、如B11所述的装置,其中,所述管理模块进一步适于:设置按下载信息显示各个下载文件及每个下载文件的管理操作入口的功能选项,所述功能选项进一步包括:按文件类型显示选项、按下载工具显示选项、以及按下载时间显示选项。
B13、如B8-12任一所述的装置,其中,所述扫描模块具体适于:扫描并获取与所述下载文件的文件内容相对应的文件特征信息;查询预设的本地特征信息库,根据预设规则判定所述文件内容相对应的文件特征信息是否与所述本地特征信息库中存储的信息项匹配;根据匹配结果确定所述下载文件的安全等级。
B14、如B13所述的装置,其中,所述文件内容相对应的文件特征信息包括:所述下载文件对应的URL地址,则所述本地特征信息库中存储的信息项包括:多个安全等级的URL信息项;和/或,
所述文件内容相对应的文件特征信息包括:所述下载文件中包含的明文字符串,则所述特征信息库中存储的信息项包括:多个安全等级的明文字符串集合;和或,
所述文件内容相对应的文件特征信息包括:所述下载文件对应的文件页面元素,所述文件页面元素进一步包括:图片、文本特征和网页链接,则所述本地特征信息库中存储的信息项包括:多个安全等级的页面元素模板;其中,所述文件页面元素以及页面元素模板通过文档对象模型DOM树表示。