CN102999590B

CN102999590B - 识别官方网站的方法和系统

Info

Publication number: CN102999590B
Application number: CN201210464529.XA
Authority: CN
Inventors: 于春功; 张超旭
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2015-07-29
Anticipated expiration: 2032-11-16
Also published as: CN102999590A

Abstract

本发明实施例公开了一种识别官方网站的方法和系统，以解决由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题。其中，识别官方网站的方法包括：获取软件的下载日志；对所述下载日志进行分析，从所述下载日志中提取候选网站；将所述候选网站中符合预设条件的网站进行过滤；从过滤之后的候选网站中确认出软件的官方网站。本发明实施例提高了识别软件官方网站的准确率和效率，提高了监控的召回率和收集文件的效率。

Description

识别官方网站的方法和系统

技术领域

本发明实施例涉及互联网技术领域，具体涉及识别官方网站的方法和系统。

背景技术

互联网，即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是指将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果，人们可以与远在千里之外的朋友相互发送邮件、共同完成一项工作、共同娱乐。

互联网上每天会产生大量的新的文件，其中大部分是新的软件和升级补丁包，这些新的软件和升级补丁包可以作为白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中，首先要查看这些软件的发布渠道，通常可以通过查看这些软件的官方网站来确定发布渠道，然后对这些官方网站进行监控。

传统的识别软件官方网站的方法包括以下两种：

(1)通过人工识别软件的官方网站。

(2)通过搜索引擎对一些已知软件名称的软件进行半自动抓取，并分析软件的页面样式，来识别软件的官方网站。

上述第一种方法的识别准确率较高，但是召回率较低，并且，通过人工识别每天处理的软件数量很有限，识别效率低、成本高，该方法对于解决少量的重要软件比较适用，但是对整个互联网的所有软件来说，这个方法是不可行的。

上述第二种方法只能针对软件名称已知的一些软件进行识别，并且识别过程依赖于搜索引擎质量的好坏，识别的准确率和监控的召回率很难保证。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别官方网站的方法和系统。

根据本发明的一个方面，提供了一种识别官方网站的方法，包括：

获取软件的下载日志；

对所述下载日志进行分析，从所述下载日志中提取候选网站；

将所述候选网站中符合预设条件的网站进行过滤；

从过滤之后的候选网站中确认出软件的官方网站。

本发明实施例中，下载日志包括软件下载的网站信息，

所述对所述下载日志进行分析，从所述下载日志中提取候选网站，包括：

从所述下载日志中解析出所述软件下载的网站信息；

从所述软件下载的网站信息中提取候选网站标识信息。

本发明实施例中，符合预设条件的网站包括下载网站，

将所述候选网站中符合预设条件的网站进行过滤，包括：

统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT；

将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较；

当所述比值DCOUNT/FCOUNT大于所述第一阈值时，确定所述候选网站为下载网站；

将所述下载网站过滤。

本发明实施例中，当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时，还包括：

将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较；

当下载的软件的个数FCOUNT大于或等于所述第二阈值时，确定所述网站为下载网站；

将所述下载网站过滤。

本发明实施例中，符合预设条件的网站包括非可执行文件的下载网站，所述软件的下载日志包括下载的软件文件名，

将所述候选网站中的符合预设条件的网站进行过滤，包括：

从所述软件的下载日志中解析出所述候选网站下下载的软件文件名；

判断所述软件文件名中是否存在非可执行文件的名称；

若存在，则确定所述候选网站为非可执行文件的下载网站；

将所述非可执行文件的下载网站过滤。

本发明实施例中，符合预设条件的网站还包括游戏网站，

将所述候选网站中的符合预设条件的网站进行过滤，还包括：

抓取所述候选网站的页面内容；

将所述页面内容输入到预先设置的网站分类器中，通过所述网站分类器过滤所述候选网站中的游戏网站。

本发明实施例中，网站分类器通过以下步骤获得：

分别获取多个官方网站样本和游戏网站样本；

提取所述官方网站样本的页面内容，以及所述游戏网站样本的页面内容，并对所述页面内容进行分词处理；

统计分词之后的官方网站样本的页面内容对应的词频，生成向量V-SOFT，统计分词之后的游戏网站样本的页面内容对应的词频，生成向量V-GAME；

根据所述向量V-SOFT和向量V-GAME生成网站分类器。

本发明实施例中，通过所述网站分类器过滤所述候选网站中的游戏网站，包括：

提取所述候选网站的页面内容，对所述候选网站的页面内容进行分词处理；

统计分词之后的候选网站的页面内容对应的词频，生成向量V-UNKNOWN；

分别计算向量V-UNKNOWN和向量V-SOFT的距离，以及向量V-UNKNOWN和向量V-GAME的距离；

当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时，确定所述候选网站为官方游戏网站或私服网站；

将所述官方游戏网站或私服网站过滤。

本发明实施例中，在抓取所述候选网站的页面内容之前，还包括：

对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序；

获取处理网站的个数K，从排序后的候选网站中抽取前K个候选网站；

所述抓取所述候选网站的页面内容，包括：

抓取所述前K个候选网站的页面内容。

根据本发明的另一方面、提供了一种识别官方网站的系统，包括：

日志获取模块，适于获取软件的下载日志；

网站提取模块，适于对所述下载日志进行分析，从所述下载日志中提取候选网站；

网站过滤模块，适于将所述候选网站中符合预设条件的网站进行过滤；

网站确认模块，适于从过滤之后的候选网站中确认出软件的官方网站。

本发明实施例中，下载日志包括软件下载的网站信息，

所述网站提取模块包括：

网站信息解析子模块，适于从所述下载日志中解析出所述软件下载的网站信息；

标识提取子模块，适于从所述软件下载的网站信息中提取候选网站标识信息。

本发明实施例中，符合预设条件的网站包括下载网站，

网站过滤模块包括：

统计子模块，适于统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT；

第一比较子模块，适于将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较；

第一下载网站确定子模块，适于当所述比值DCOUNT/FCOUNT大于所述第一阈值时，确定所述候选网站为下载网站；

下载网站过滤子模块，适于将所述下载网站过滤。

本发明实施例中，网站过滤模块还包括：

第二比较子模块，适于当所述第一比较子模块的比较结果为所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时，将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较；

第二下载网站确定子模块，适于当下载的软件的个数FCOUNT大于或等于所述第二阈值时，确定所述网站为下载网站。

网站过滤模块包括：

文件名解析子模块，适于从所述软件的下载日志中解析出在所述候选网站下下载的软件文件名；

判断子模块，适于判断所述软件文件名中是否存在非可执行文件的名称；

文件下载网站确定子模块，适于当判断子模块的判断结果为存在时，确定所述候选网站为非可执行文件的下载网站；

文件下载网站过滤子模块，适于将所述非可执行文件的下载网站过滤。

本发明实施例中，符合预设条件的网站还包括游戏网站，

网站过滤模块还包括：

抓取子模块，适于抓取所述候选网站的页面内容；

游戏网站过滤子模块，适于将所述页面内容输入到预先设置的网站分类器中，通过所述网站分类器过滤所述候选网站中的游戏网站。

本发明实施例中，识别官方网站的系统还包括：

样本获取模块，适于分别获取多个官方网站样本和游戏网站样本；

分词模块，适于提取所述官方网站样本的页面内容，以及所述游戏网站样本的页面内容，并对所述页面内容进行分词处理；

向量生成模块，适于统计分词之后的官方网站样本的页面内容对应的词频，生成向量V-SOFT，统计分词之后的游戏网站样本的页面内容对应的词频，生成向量V-GAME；

分类器生成模块，适于根据所述向量V-SOFT和向量V-GAME生成网站分类器。

本发明实施例中，游戏网站过滤子模块包括：

分词子单元，适于提取所述候选网站的页面内容，对所述候选网站的页面内容进行分词处理；

向量生成子单元，适于统计分词之后的候选网站的页面内容对应的词频，生成向量V-UNKNOWN；

计算子单元，适于分别计算向量V-UNKNOWN和向量V-SOFT的距离，以及向量V-UNKNOWN和向量V-GAME的距离；

游戏网站确定子单元，适于当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时，确定所述候选网站为官方游戏网站或私服网站；

游戏网站过滤子单元，适于将所述官方游戏网站或私服网站过滤。

本发明实施例中，网站过滤模块还包括：

排序子模块，适于在抓取子模块抓取所述候选网站的页面内容之前，对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序；

抽取子模块，适于获取处理网站的个数K，从排序后的候选网站中抽取前K个候选网站。

根据本发明实施例的识别软件官方网站的方法和系统可以通过获取软件的下载日志，并对所述下载日志进行分析，从所述下载日志中提取候选网站，然后将所述候选网站中符合预设条件的网站过滤掉，最后从过滤掉所述符合预设条件的网站之后的候选网站中确认软件的官方网站。通过对软件的下载日志进行分析，可以获取到更加准确的下载信息，由此解决了由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题，取得了提高识别软件官方网站的准确率和效率的有益效果。

其次，本发明实施例还提出了一种收集文件的方法和系统，在识别出软件的官方网站之后，可以将这些官方网站加入到后续的监控流程，当该网站下有新的软件或升级补丁包的时候，及时将这些新的软件或升级补丁包加入到白名单数据库中，从而也可以收录一些关注度不是很高的软件，提高了监控的召回率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种识别官方网站的方法的流程图；

图2A示出了根据本发明一个具体实施例的一种识别官方网站的方法的流程图；

图2B示出了根据本发明另一个具体实施例的一种识别官方网站的方法的流程图；

图2C示出了根据本发明另一个具体实施例的一种识别官方网站的方法的流程图；

图3示出了根据本发明一个实施例的一种识别官方网站的系统的结构框图；

图4示出了根据本发明一个实施例的一种收集文件的方法的流程图；以及

图5示出了根据本发明一个实施例的一种收集文件的系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

参考图1，示出了本发明实施例中一种识别官方网站的方法的流程图。

互联网上每天都会产生大量的新的文件，其中大部分是新的软件和升级补丁包，这些新的软件和升级补丁包可以收集为白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中，首先要查看这些软件的发布渠道，通常可以通过查看这些软件的官方网站来确定发布渠道，然后对这些官方网站进行监控。

但是，目前一般是通过人工识别或者通过搜索引擎进行识别，而这两种识别方法的识别准确率和效率都较低。

针对上述问题，本发明实施例提出了一种识别软件官方网站的方法，该方法可以通过分析软件的下载日志，从中提取候选网站，再对这些候选网站进行处理，进而识别出软件的官方网站。

具体的，该方法可以包括：

步骤100，获取软件的下载日志。

当互联网中某个客户端设备在某个下载网站上下载某些软件的时候，可以采集客户端设备的下载行为，并将客户端设备的下载行为记载为软件的下载日志。该下载日志中会记录一些软件的下载信息，例如软件的下载路径、软件下载的网站信息等，通过这些下载信息，可以获取到软件下载的具体情况。

步骤102，对所述下载日志进行分析，从所述下载日志中提取候选网站。

由于软件的下载日志中记录了软件的下载信息，通过对这些下载信息进行分析，可以获取到软件下载的具体情况，具体的，可以从软件下载的网站信息中提取出软件下载的网站标识信息。

例如，下载日志中软件下载的网站信息为http://www.badiu.com/xxxx和http://www.baidu.com/yyyy，可以从这两个软件下载的网站信息中提取出侯钻网站标识信息均为www.badiu.com。当然，还可以通过其他方式提取软件下载的网站，本发明对此并不加以限制。

步骤104，将所述候选网站中符合预设条件的网站进行过滤。

在该步骤104中，主要是对候选网站中一些具有明显特征的网站进行过滤，这些网站可能不会被作为软件的官方网站进行监控。

例如对于一些下载网站、游戏网站等，对于这些网站进行监控可能没有意义，因此，本发明实施例中可以将候选网站中的这些网站进行过滤。

对于具体的过滤过程，将在下面的实施例中详细介绍。

步骤106，从过滤之后的候选网站中确认出软件的官方网站。

在对候选网站进行过滤之后，即可初步确定出一些可能是软件的官方网站的候选网站，本发明实施例可以进一步对这些网站进行处理，从而最终确认出软件的官方网站。

在本发明实施例中，可以预先设置一些配置信息，然后通过这些配置信息可以自动从上述过滤之后的候选网站中再次进行官方网站的确认。

上述通过配置信息再次确认官方网站的过程可以进一步提高官方网站识别的准确性，并且，本发明实施例已经对候选网站做了初步的过滤处理，因此剩余的候选网站是软件的官方网站的可能性较大，利用上述的确认方式对效率的影响也不大。

当然，本发明实施例还可以通过其他的方式确认官方网站，本发明实施例对此并不加以限制。

对于上述识别官方网站的方法的具体过程，将在下面的实施例中详细介绍。

本发明实施例的识别官方网站的方法通过对软件的下载日志进行分析，可以获取到更加准确的下载信息，从这些下载信息中提取候选网站，再对这些候选网站进行处理，进而识别出软件的官方网站。本发明实施例解决了由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题，提高了识别软件官方网站的准确率和效率。

下面，对于本发明实施例提出的识别官方网站的方法进行详细的介绍。

参考图2A-图2C，分别示出了本发明实施例中一种识别官方网站的方法的流程图，该方法具体可以包括：

步骤200，获取软件的下载日志。

本发明实施例中，当客户端设备在下载某些软件时，客户端可以采集客户端设备的下载行为，通过这些下载行为中记录的下载信息生成软件的下载日志。本发明实施例中，首先可以获取这些软件的下载日志，然后对所述下载日志进行分析，以识别软件的官方网站。

具体的，下载日志中可以记录以下信息：

客户端设备下载的软件的签名、客户端设备下载软件的路径、软件下载的网站信息和下载的软件文件名。

当然，所述下载日志中还可以包括一些其他信息，例如软件的下载时间等，本发明实施例对此并不加以限制。

步骤202，对所述下载日志进行分析，从所述下载日志中提取候选网站。

在获取到软件的下载日志之后，进一步对这些下载日志进行分析，从所述下载日志中提取候选网站。具体的，可以从下载日志中存储的软件下载的网站信息中提取候选网站标识信息。

本发明实施例中，该步骤202可以包括：

i，从所述下载日志中解析出所述软件下载的网站信息；

ii，从所述软件下载的网站信息中提取候选网站标识信息。

例如，如果在软件下载日志中包括的软件下载的网站信息为http://www.badiu.com/xxxx，则从该网站信息中提取的候选网站标识信息为www.badiu.com，如果软件下载的网站信息为http://www.baofeng.com/xxxx，则从该网站信息中提取的候选网站标识信息为www.baofeng.com。

也就是说，在本发明实施例中，可以从软件下载日志中的每个软件下载的网站信息中提取一个网站标识信息，本发明实施例可以将所有这些网站标识信息作为候选网站标识信息，当然，也可以将其中的部分网站标识信息作为候选网站标识信息，本发明实施例对此并不加以限制。

需要说明的是，本发明实施例中在某些软件下载的网站信息中提取的网站表示信息可以表示同一个网站，例如，对于两个软件下载的网站信息分别为http://www.badiu.com/xxxx和http://www.baidu.com/yyyy，则从这两个网站信息中提取的网站标识信息均为www.badiu.com。

步骤204，将所述候选网站中符合预设条件的网站进行过滤。

在上述步骤202中提取出候选网站之后，进一步对这些候选网站进行过滤处理，将其中一些符合预设条件的网站过滤掉。

其中，符合预设条件的网站可以包括：下载网站、非可执行文件的下载网站，以及游戏网站等，当然，还可以包括一些其他形式的网站，本发明实施例对此并不加以限制。

下面，分别针对上述三种网站(下载网站、非可执行文件的下载网站和游戏网站)的过滤过程进行介绍。

图2A为针对下载网站进行过滤的流程图，图2B为针对非可执行文件的下载网站进行过滤的流程图，图2C为针对游戏网站进行过滤的流程图。

下面，分别结合图2A、图2B和图2C进行介绍。

(1)下载网站(图2A)

本发明实施例中，下载网站主要是专门提供软件下载的网站，例如天空软件下载站(网站标识信息为www.skycn.com)、太平洋软件下载站(网站标识信息为dl.pconline.com.cn)，等等。

在本发明实施例中，对于下载网站的过滤过程，可以通过预先设置的阈值进行过滤。

具体的，该步骤204可以通过以下子步骤过滤掉候选网站中的下载网站：

子步骤a1，统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT。

本发明实施例中，对于每个候选网站，都可以统计在该候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT。

例如，在www.baofeng.com这个网站中，分别下载了暴风影音pc版，暴风影音手机版和暴风影音ipad版3个版本，那么下载的软件的个数FCOUNT＝3。

子步骤a2，将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT与预设的第一阈值进行比较。

子步骤a3，当所述比值DCOUNT/FCOUNT大于所述第一阈值时，确定所述候选网站为下载网站。

子步骤a4，将所述下载网站过滤掉。

在本发明实施例中，可以设置所述第一阈值为2，即当候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT＞2时，确定该候选网站为下载网站。

例如，对于候选网站www.skycn.com，如果在该网站下软件下载的总次数DCOUNT＝8，在该网站下下载的软件的个数FCOUNT＝3，则DCOUNT/FCOUNT＞2，因此，可以确定该网站www.skycn.com为下载网站，从而将该下载网站过滤掉。

上述过程中，将所述比值DCOUNT/FCOUNT与2进行比较，可以说明如果在该网站下，软件下载的总次数大于下载的软件的个数的2倍，即在该网站下同一个软件可能被下载了多次，则该网站很有可能是下载网站，本发明实施例可以将这些网站过滤掉。

另外，考虑到通过上述过程可能会漏掉一些下载网站，例如对于某个候选网站，虽然在该候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DCOUNT/FCOUNT小于或等于2，但是该候选网站为下载网站，因此，通过上述方法可能不能过滤掉该下载网站。

针对上述情况，本发明实施例进一步提出了将在候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较，以进一步过滤掉下载网站。

具体的，当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时，该步骤204还可以包括：

子步骤a5，将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较。

子步骤a6，当下载的软件的个数FCOUNT大于或等于所述第二阈值时，确定所述网站为下载网站。

子步骤a7，将所述下载网站过滤掉。

在本发明实施例中，可以设置所述第二阈值为6，即当在候选网站下下载的软件的个数FCOUNT大于或等于6时，确定该候选网站为下载网站。

例如，对于候选网站dl.pconline.com.cn，如果在该网站下软件下载的总次数DCOUNT＝10，在该网站下下载的软件的个数FCOUNT＝8，虽然DCOUNT/FCOUNT＜2，但是FCOUNT＞6，因此，仍然可以确定该网站dl.pconline.com.cn为下载网站，从而将该下载网站过滤掉。

上述过程中，将所述下载的软件的个数FCOUNT与6进行比较，可以说明如果在该网站下下载的软件的个数比较多，则该网站很有可能是下载网站，本发明实施例可以将这些网站过滤掉。

对于上述第一阈值和第二阈值的具体数值的设置，本发明实施例只是选取的经验值，当然，本领域技术人员还可以根据实际情况选取其他的数值，本发明实施例对此并不加以限制。

(2)非可执行文件的下载网站(图2B)

本发明实施例中，非可执行文件的下载网站可以是一些提供word、excel等文件的下载网站，例如学校网站等等。对于非可执行文件的下载网站的过滤过程，可以通过下载的软件文件名进行过滤。

通过上述步骤200中的相关描述，可以得知在软件的下载日志包括下载的软件文件名。

具体的，该步骤204可以通过以下子步骤过滤掉候选网站中的非可执行文件的下载网站：

子步骤b1，从所述软件的下载日志中解析出在所述候选网站下下载的软件文件名。

子步骤b2，判断所述软件文件名中是否存在非可执行文件的名称。

对于上述的word、excel等文件，所述非可执行文件的名称为扩展名为“.xls”或“.doc”的名称。

当然，非可执行文件还可以包括一些其他的文件，例如Powerpoint文件，该非可执行文件的扩展名为“.ppt”，还可以是扩展名为“.rar”“.exe”的文件，本发明实施例对此并不加以限制。

子步骤b3，若存在，则确定所述候选网站为非可执行文件的下载网站。

子步骤b4，将所述非可执行文件的下载网站过滤掉。

(3)游戏网站(图2C)

在本发明实施例中，对于游戏网站的过滤过程，可以通过网站分类器进行过滤。

首先，介绍一下网站分类器的训练过程。

具体的所述网站分类器可以通过以下步骤获得：

(i)，分别获取多个官方网站样本和游戏网站样本。

(ii)，提取所述官方网站样本的页面内容，以及所述游戏网站样本的页面内容，并对所述页面内容进行分词处理。

(iii)，统计分词之后的官方网站样本的页面内容对应的词频，生成向量V-SOFT，统计分词之后的游戏网站样本的页面内容对应的词频，生成向量V-GAME。

例如，

V-GAME＝{word1_count，word2_count，...，wordn_count}

V-SOFT＝{word1_count，word2_count，...，wordn_count}

(iv)，根据所述向量V-SOFT和向量V-GAME生成网站分类器。

本发明实施例中，可以根据分类器的处理能力选取其中的部分候选网站进行处理，其中，分类器的处理能力可以为分类器能够处理网站的最大个数K(本发明实施例对此并不加以限制)。

具体的，该步骤204可以通过以下子步骤过滤掉候选网站中的游戏网站：

子步骤c1，对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序。

子步骤c2，获取处理网站的个数K，从排序后的候选网站中抽取前K个候选网站。

在本发明实施例中，该过滤游戏站点的过程可以在对下载站点进行过滤之后执行，通过上述子步骤c1-子步骤c2从过滤下载站点之后的候选站点中选取K个候选站点，但是本发明实施例对此并不加以限制。

子步骤c3，抓取所述前K个候选网站的页面内容。

子步骤c4，将所述页面内容输入到预先设置的网站分类器中，通过所述网站分类器过滤掉所述候选网站中的游戏网站。

具体的，该子步骤c4可以包括：

a，提取所述候选网站的页面内容，对所述候选网站的页面内容进行分词处理。

b，统计分词之后的候选网站的页面内容对应的词频，生成向量V-UNKNOWN。

c，分别计算向量V-UNKNOWN和向量V-SOFT的距离，以及向量V-UNKNOWN和向量V-GAME的距离。

在本发明实施例中，对于计算向量V-UNKNOWN和向量V-SOFT的距离以及向量V-UNKNOWN和向量V-GAME的距离的过程，可以采用计算明氏距离的方法。

明氏距离又叫做明可夫斯基距离，是欧氏空间中的一种测度，被看做是欧氏距离和曼哈顿距离的一种推广。

例如，两点P和Q：

P＝(x₁.x₂.....x_n)and

它们之间的为明氏距离公式：

{(Σ_{i = 1}^{n} {| x_{i} - y_{i} |}^{p})}^{1 / p}

其中，p取1或2时的明氏距离是最为常用的。p＝2即为欧氏距离，p＝1时为曼哈顿距离。

当p取无穷时的极限情况下，可以得到切比雪夫距离：

\lim_{p &RightArrow; \infty} {(Σ_{i = 1}^{n} {| x_{i} - y_{i} |}^{p})}^{\frac{1}{p}} = \max_{i = 1}^{n} | x_{i} - y_{i} | .

对于具体的计算过程，本发明实施例在此不再详细论述。

当然，本发明实施例并不限定与上述计算方法，本领域技术人员可以根据实际经验采用其他的计算方法。

d，当向量V-UNKNOWN和向量V-GAME的距离在预设范围内时，确定所述候选网站为官方游戏网站或私服网站。

e，将所述官方游戏网站或私服网站过滤掉。

需要说明的是，上述的步骤a1-a6为过滤下载网站的具体过程，步骤b1-b4为过滤非可执行文件的下载网站的具体过程，步骤c1-c4为过滤游戏网站的具体过程，本发明实施例中对于上述三个过程的执行顺序并不加以限制。

另外，在本发明实施例中，所述符合预设条件的网站并不限定与上述的三种网站，还可以包括其他一些网站，本发明实施例在此不再一一详述，本领域技术人员根据实际情况进行相应处理即可，本发明实施例对此并不加以限制。

步骤206，从过滤之后的候选网站中确认出软件的官方网站。

本发明实施例中，在通过上述步骤204过滤掉候选网站中的符合预设条件的网站之后，可以从剩余的网站中确认出软件的官方网站。

具体的，该过程可以通过预先设置的配置信息进一步确认软件的官方网站，以使结果更加准确。当然，还可以通过其他的方式进一步确认软件的官方网站，本发明实施例对此并不加以限制。

本发明实施例的识别软件官方网站的方法通过对软件的下载日志进行分析，可以获取到更加准确的下载信息，从这些下载信息中提取候选网站，再对这些候选网站进行处理，进而识别出软件的官方网站。本发明实施例解决了由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题，提高了识别软件官方网站的准确率和效率。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请所必需的。

参照图3，示出了本发明实施例提出的一种识别官方网站的系统的结构名框图，该系统具体可以包括：日志获取模块10、网站提取模块12、网站过滤模块14和网站确认模块16。

其中，

日志获取模块10，适于获取软件的下载日志；

本发明实施例中，所述下载日志中可以包括以下信息：

网站提取模块12，适于对所述下载日志进行分析，从所述下载日志中提取候选网站；

所述网站提取模块12包括：

网站过滤模块14，适于将所述候选网站中符合预设条件的网站进行过滤；

本发明实施例中，所述符合预设条件的网站包括下载网站。

所述网站过滤模块14包括：

第二下载网站确定子模块，适于当下载的软件的个数FCOUNT大于或等于所述第二阈值时，确定所述网站为下载网站；

下载网站过滤子模块，适于将所述下载网站过滤。

本发明实施例中，所述符合预设条件的网站包括非可执行文件的下载网站，所述软件的下载日志包括下载的软件文件名。

所述网站过滤模块14包括：

在本发明实施例中，所述符合预设条件的网站包括游戏网站。

所述网站过滤模块14包括：

抽取子模块，适于获取处理网站的个数K，从排序后的候选网站中抽取前K个候选网站；

抓取子模块，适于抓取所述候选网站的页面内容；

在本发明实施例中，所述系统还可以包括样本获取模块、分词模块、向量生成模块和分类器生成模块，通过这些模块获取到网站分类器。

其中，

本发明实施例中，可以通过上述获得的网站分类器过滤所述候选网站中的游戏网站，具体的，所述游戏网站过滤子模块可以包括：

网站确认模块16，适于从过滤之后的候选网站中确认出软件的官方网站。

本发明实施例的识别官方网站的系统，可以通过获取软件的下载日志，并对所述下载日志进行分析，从所述下载日志中提取候选网站，然后将所述候选网站中符合预设条件的网站过滤掉，最后从过滤掉所述符合预设条件的网站之后的候选网站中确认软件的官方网站。通过对软件的下载日志进行分析，可以获取到更加准确的下载信息，由此解决了由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题，取得了提高识别软件官方网站的准确率和效率的有益效果。

对于上述识别官方网站的系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见图1和图2所示方法实施例的部分说明即可。

由于互联网上每天都会产生大量的新文件，这些新文件大部分是新的软件和升级补丁包，而这些新的软件和升级补丁包可以收集为白名单数据库中的文件。因此，为了及时将这些新的软件和升级补丁包收录进入白名单数据库中，在识别出这些软件的官方网站之后，可以将这些官方网站作为可信任网站加入到后续的监控流程，以实时对这些官方网站进行监控。

在监控过程中，定时刷新该官方网站，当检测到该网站下有新文件(新的软件或升级补丁包)的时候，可以及时收集这些新文件，并将这些新文件加入到白名单数据库中。

针对上述问题，本发明实施例提出了一种收集文件的方法，如图4所示，该方法具体可以包括：

步骤400，获取软件的下载日志。

步骤402，对所述下载日志进行分析，从所述下载日志中提取候选网站。

步骤404，将所述候选网站中符合预设条件的网站进行过滤。

步骤406，从过滤之后的候选网站中确认出软件的官方网站。

对于上述步骤400-步骤406的具体过程，参见图1和图2所示方法实施例的部分说明即可，本发明实施例在此不再详细论述。

步骤408，对所述官方网站进行监控，收集所述官方网站中的文件。

对于具体的监控过程，本领域技术人员根据实际情况进行相应处理即可，本发明实施例在此不再详细论述。

与上述实施例描述的收集文件的方法相对应，本发明实施例还提出了一种收集文件的系统。

图5示出了根据本发明一个实施例的一种收集文件的系统的结构框图，该系统包括：

日志获取模块20，适于获取软件的下载日志；

网站提取模块22，适于对所述下载日志进行分析，从所述下载日志中提取候选网站；

网站过滤模块24，适于将所述候选网站中符合预设条件的网站进行过滤；

网站确认模块26，适于从过滤之后的候选网站中确认出软件的官方网站；

收集模块28，适于对所述官方网站进行监控，收集所述官方网站中的文件。

其中，对于日志获取模块20、网站提取模块22、网站过滤模块24和网站确认模块26的具体描述，可以参照上述识别官方网站的系统实施例的相关描述，本发明实施例在此不再详细论述。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统，本发明实施例所述的服务器、客户端可以是物理上相互独立的机器。

当互联网中某个客户端设备在某个下载网站上下载某些软件的时候，可以由一个或者多个分布于不同的区域的客户端设备来采集某个客户端设备的下载行为，并将客户端设备的下载行为记载为软件的下载日志，并上报下载日志至服务器端；或者是由多个服务器去某一个或多个客户端设备获取相关的下载日志，其中，该下载日志中会记录一些软件的下载信息，例如软件的下载路径、软件下载的网站信息等，通过这些下载信息，可以获取到软件下载的具体情况。上述实施例提出的收集文件的方法和系统在识别出软件的官方网站之后，可以将这些官方网站加入到后续的监控流程，当该网站下有新文件(新的软件或升级补丁包)的时候，收集这些新文件，并及时将这些新的软件或升级补丁包加入到白名单数据库中，从而提高文件的收集效率，同时也可以收录一些关注度不是很高的软件，提高了监控的召回率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本申请的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的识别官方网站的系统和收集文件的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种识别官方网站的方法，包括：

获取软件的下载日志；

将所述候选网站中符合预设条件的网站进行过滤；

从过滤之后的候选网站中确认出软件的官方网站；

其中，所述符合预设条件的网站包括非可执行文件的下载网站，所述软件的下载日志包括下载的软件文件名，所述将所述候选网站中的符合预设条件的网站进行过滤，包括：

判断所述软件文件名中是否存在非可执行文件的名称；

若存在，则确定所述候选网站为非可执行文件的下载网站；

将所述非可执行文件的下载网站过滤。

2.根据权利要求1所述的方法，所述下载日志包括软件下载的网站信息，

从所述下载日志中解析出所述软件下载的网站信息；

从所述软件下载的网站信息中提取候选网站标识信息。

3.根据权利要求1所述的方法，所述符合预设条件的网站还包括下载网站，

所述将所述候选网站中符合预设条件的网站进行过滤，还包括：

将所述下载网站过滤。

4.根据权利要求3所述的方法，当所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时，还包括：

将所述下载网站过滤。

5.根据权利要求3所述的方法，所述符合预设条件的网站还包括游戏网站，

所述将所述候选网站中的符合预设条件的网站进行过滤，还包括：

抓取所述候选网站的页面内容；

6.根据权利要求5所述的方法，所述网站分类器通过以下步骤获得：

分别获取多个官方网站样本和游戏网站样本；

根据所述向量V-SOFT和向量V-GAME生成网站分类器。

7.根据权利要求6所述的方法，所述通过所述网站分类器过滤所述候选网站中的游戏网站，包括：

将所述官方游戏网站或私服网站过滤。

8.根据权利要求5所述的方法，在抓取所述候选网站的页面内容之前，还包括：

所述抓取所述候选网站的页面内容，包括：

抓取所述前K个候选网站的页面内容。

9.一种识别官方网站的系统，包括：

日志获取模块，适于获取软件的下载日志；

网站确认模块，适于从过滤之后的候选网站中确认出软件的官方网站；

其中，所述符合预设条件的网站包括非可执行文件的下载网站，所述软件的下载日志包括下载的软件文件名，所述网站过滤模块包括：

10.根据权利要求9所述的系统，所述下载日志包括软件下载的网站信息，

所述网站提取模块包括：

11.根据权利要求9所述的系统，所述符合预设条件的网站还包括下载网站，

所述网站过滤模块还包括：

下载网站过滤子模块，适于将所述下载网站过滤。

12.根据权利要求11所述的系统，所述网站过滤模块还包括：

13.根据权利要求11所述的系统，所述符合预设条件的网站还包括游戏网站，

所述网站过滤模块还包括：

抓取子模块，适于抓取所述候选网站的页面内容；

14.根据权利要求13所述的系统，还包括：

15.根据权利要求14所述的系统，所述游戏网站过滤子模块包括：

16.根据权利要求13所述的系统，所述网站过滤模块还包括：