CN104079559B

CN104079559B - 一种网址安全性检测方法、装置及服务器

Info

Publication number: CN104079559B
Application number: CN201410247805.6A
Authority: CN
Inventors: 张辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-06-05
Filing date: 2014-06-05
Publication date: 2017-07-25
Anticipated expiration: 2034-06-05
Also published as: CN104079559A

Abstract

本发明实施例公开了一种网址安全性检测方法、装置及服务器，其中的方法可包括：根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本；采用预设的编码算法将所述页面内容文本转换为待检测编码；分析所述待检测编码以确定所述网址的安全性。采用本发明，可对网址安全性进行快速检测，保护客户端的网络安全。

Description

一种网址安全性检测方法、装置及服务器

技术领域

本发明涉及互联网技术领域，具体涉及网络安全技术领域，尤其涉及一种网址安全性检测方法、装置及服务器。

背景技术

网址指网页(或网站)地址，可以为URL(Uniform Resourse Locator，统一资源定位符)。根据网址的安全性划分，网址可分为安全网址和恶意网址；安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等；恶意网址指各类欺诈、仿冒、钓鱼和挂马等网页地址，例如：仿冒各类正规网站的恶意网址等等，客户端访问恶意网址可能造成客户端隐私信息泄漏、木马病毒感染等危害。随着互联网技术的发展，如何对网址安全性进行检测，以保护客户端的网络安全，成为亟待解决的问题。

发明内容

本发明实施例所要解决的技术问题在于，提供一种网址安全性检测方法、装置及服务器，可对网址安全性进行快速检测，保护客户端的网络安全。

为了解决上述技术问题，本发明实施例第一方面提供一种网址安全性检测方法，可包括：

根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本；

采用预设的编码算法将所述页面内容文本转换为待检测编码；

分析所述待检测编码以确定所述网址的安全性。

基于第一方面，在第一种实施方式中，所述根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本，包括：

根据客户端上报的网址，下载所述网址对应的网页文件；

解析所述网页文件，获取所述网页文件的页面内容文本。

基于第一方面的第一种实施方式，在第二种实施方式中，所述根据客户端上报的网址，下载所述网址对应的网页文件之前，还包括：

判断所述网址是否为白名单库中的安全网址，所述白名单库中包含至少一个安全网址；

若判断结果为否，则执行所述根据客户端上报的网址，下载所述网址对应的网页文件的步骤。

基于第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式，在第三种实施方式中，所述预设的编码算法为Simhash(一种局部敏感哈希算法)算法；所述采用预设的编码算法将所述页面内容文本转换为待检测编码，包括：

对所述页面内容文本进行分词处理，获得至少一个文本分词；

采用Hash(哈希)算法对各文本分词进行编码计算，获得各文本分词的Hash编码；

对各文本分词的Hash编码进行加权处理，获得各文本分词的权值序列；

将所述各文本分词的权值序列进行合并处理，获得所述页面内容文本对应的权值序列串；

对所述页面内容文本的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码；

将所述页面内容文本对应的Simhash编码确定为待检测编码。

基于第一方面的第三种实施方式，在第四种实施方式中，所述分析所述待检测编码以确定所述网址的安全性，包括：

判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码，所述恶意样本编码库中包括至少一个恶意样本编码，所述恶意样本编码为Simhash编码；

若判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码，则确定所述网址为恶意网址。

基于第一方面的第四种实施方式，在第五种实施方式中，所述判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码，包括：

将所述待检测编码与所述恶意样本编码库中的各恶意样本编码进行二进制位比较；

若所述恶意样本编码库中任一恶意样本编码与所述待检测编码具有差异二进制位，且差异二进制位的数量小于预设阈值，则判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码。

本发明实施例第二方面提供一种网址安全性检测装置，可包括：

文本获取模块，用于根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本；

编码模块，用于采用预设的编码算法将所述页面内容文本转换为待检测编码；

安全检测模块，用于分析所述待检测编码以确定所述网址的安全性。

基于第二方面，在第一种实施方式中，所述文本获取模块包括：

下载单元，用于根据客户端上报的网址，下载所述网址对应的网页文件；

解析单元，用于解析所述网页文件，获取所述网页文件的页面内容文本。

基于第二方面的第一种实施方式，在第二种实施方式中，所述装置还包括：

白名单判断模块，用于判断所述网址是否为白名单库中的安全网址，所述白名单库中包含至少一个安全网址；

所述下载单元用于在所述白名单判断模块判断结果为否时，根据客户端上报的网址，下载所述网址对应的网页文件。

基于第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式，在第三种实施方式中，所述编码模块包括：

分词单元，用于对所述页面内容文本进行分词处理，获得至少一个文本分词；

编码单元，用于采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码；

加权单元，用于对各文本分词的Hash编码进行加权处理，获得各文本分词的权值序列；

合并单元，用于将所述各文本分词的权值序列进行合并处理，获得所述页面内容文本对应的权值序列串；

降维单元，用于对所述页面内容文本的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码；

编码确定单元，用于将所述页面内容文本对应的Simhash编码确定为待检测编码；

其中，所述预设的编码算法为Simhash算法。

基于第二方面的第三种实施方式，在第四种实施方式中，所述安全检测模块包括：

判断单元，用于判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码，所述恶意样本编码库中包括至少一个恶意样本编码，所述恶意样本编码为Simhash编码；

安全性确定单元，用于当判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码时，确定所述网址为恶意网址。

基于第二方面的第四种实施方式，在第五种实施方式中，所述判断单元包括：

比较子单元，用于将所述待检测编码与所述恶意样本编码库中的各恶意样本编码进行二进制位比较；

判断子单元，用于当所述恶意样本编码库中任一恶意样本编码与所述待检测编码具有差异二进制位，且差异二进制位的数量小于预设阈值时，判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码。

本发明实施例第三方面提供一种服务器，可包括上述第二方面所述的网址安全性检测装置。

实施本发明实施例，具有如下有益效果：

通过对客户端上报的网址对应的网页文件中的页面内容文本进行编码及分析，既能够实现网址安全性的检测，同时，由于对页面内容文本的编码进行分析，避免了直接对页面内容文本的字符进行分析所带来的资源耗费，有效提升网址安全性检测的效率，有效地保护客户端的网络安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网址安全性检测方法的流程图；

图2为本发明实施例提供的另一种网址安全性检测方法流程图；

图3为本发明实施例提供的又一种网址安全性检测方法流程图；

图4为本发明实施例提供的一种网址安全性检测装置的结构示意图；

图5为本发明实施例提供的另一种网址安全性检测装置的结构示意图；

图6为本发明实施例提供的一种文本获取模块的结构示意图；

图7为本发明实施例提供的一种编码模块的结构示意图；

图8为本发明实施例提供的一种安全检测模块的结构示意图；

图9为本发明实施例提供的一种判断单元的结构示意图；

图10为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合附图1-附图3，对本发明实施例提供的网址安全性检测方法进行详细介绍。需要说明的是，附图1-附图3所示的网址安全性检测方法可以由本发明实施例提供的网址安全性检测装置所执行，该网址安全性检测装置可运行于服务器中。本发明实施例中，客户端可包括但不限于：PC(Personal Computer，个人计算机)、PAD(平板电脑)、手机、智能手机、笔记本电脑等终端设备，或者，客户端可以为上述终端设备中的应用客户端，例如：PC中的电脑管家客户端，手机中的安全管家客户端等等。

请参见图1，为本发明实施例提供的一种网址安全性检测方法的流程图；该方法可包括以下步骤S101-步骤S103。

S101，根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本。

其中，网址指网页(或网站)地址，可以为URL。根据网址的安全性划分，网址可分为安全网址和恶意网址；安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等；恶意网址指各类欺诈、仿冒、钓鱼和挂马等网页地址，例如：仿冒各类正规网站的恶意网址等等，客户端访问恶意网址可能造成客户端隐私信息泄漏、木马病毒感染等危害。本步骤可以根据客户端上报的网址，从该网址对应的网页文件中获取页面内容文本以作后续的安全性检测分析。本发明实施例中，客户端上报的网址指客户端从浏览器地址栏采集到的当前正在访问的网址，以保证客户端当前访问的安全性，但可以理解的是，本发明实施例并不对此进行限定，客户端上报的网址还可以是客户端收集到的用户输入并请求查询的网址，等等。

S102，采用预设的编码算法将所述页面内容文本转换为待检测编码。

其中，所述预设的编码算法优选为Simhash算法。Simhash算法是Local SensitiveHash(局部敏感哈希)算法的一种，其特点在于局部敏感，即当输入内容发生少量变化时，通过Simhash算法计算获得的Hash值不变或者仅发生轻微变化。可以理解的是，所述预设的编码算法还可以为其他类型的算法，本发明实施例并不对此进行限定，例如：预设的编码算法还可以采用PHA(Perceptual Hashing，感知哈希)算法等等。

S103，分析所述待检测编码以确定所述网址的安全性。

本步骤可以将待检测编码与已知的恶意网址对应的页面文本内容的编码进行比对，如果二者相似，则可确定客户端上报的待检测的网址为恶意网址，从而快速确定出网址安全性。

本发明实施例通过对客户端上报的网址对应的网页文件中的页面内容文本进行编码及分析，既能够实现网址安全性的检测，同时，由于对页面内容文本的编码进行分析，避免了直接对页面内容文本的字符进行分析所带来的资源耗费，有效提升网址安全性检测的效率，有效地保护客户端的网络安全。

请参见图2，为本发明实施例提供的另一种网址安全性检测方法流程图；本实施例中，所述预设的编码算法优选为Simhash算法。该方法可包括以下步骤S201-步骤S210。

S201，根据客户端上报的网址，下载所述网址对应的网页文件。

其中，网址指网页(或网站)地址，可以为URL。根据网址安全性划分，网址可分为安全网址和恶意网址；安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等；恶意网址指各类欺诈、仿冒、钓鱼和挂马等网页地址，例如：仿冒各类正规网站的恶意网址等等，客户端访问恶意网址可能造成客户端的隐私信息泄漏、木马病毒感染等危害。本步骤中，根据客户端上报的网址，可以从网络服务器中下载该网址对应的网页文件，该网页文件包括但不限于：HTML(Hyper Text Markup Language，超文本标记语言)文件、JS(JavaScript，一种客户端脚本语言)文件、CSS(Cascading Style Sheet，级联样式表)文件等等，本发明实施例中，客户端上报的网址指客户端从浏览器地址栏采集到的当前正在访问的网址，以保证客户端当前访问的安全性，但可以理解的是，本发明实施例并不对此进行限定，客户端上报的网址还可以是客户端收集到的用户输入并请求查询的网址，等等。

S202，解析所述网页文件，获取所述网页文件的页面内容文本。

本实施例的步骤S201-S202可以为图1所示实施例中的步骤S101的具体细化步骤。

S203，对所述页面内容文本进行分词处理，获得至少一个文本分词。

其中，可灵活采用各种分词方法，对所述页面内容文本进行分词处理的方法，该分词方法包括但不限于：基于字符串匹配的分词方法、基于统计的分词方法等等。分词处理的目的在于去除停词或噪音词，诸如：的、了、呀等等，提取表征页面内容文本的特征的文本分词；例如：针对“中国的互联网技术的发展趋势”的页面内容文本，经过本步骤的分词处理后，可获得的文本分词如下：“中国”、“互联网”、“技术”、“发展”、“趋势”。

S204，采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码。

其中，一个文本分词对应一个Hash编码。本步骤中，将文本分词编码为Hash编码，即是将一个字符串转换为二进制数值的过程。

S205，对各文本分词的Hash编码进行加权处理，获得各文本分词的权值序列。

按照各文本分词在页面内容文本中的重要程度，可以为各文本分词分配权重；例如：按照步骤S203中的例子，可设置权重级别为1-5，权重值越大，表明该文本分词在页面内容文本中的重要程度越高，如“中国”权重可为4，“互联网”权重可为5，“技术”权重可为3，“发展”权重可为4，“趋势”权重可为2。本步骤中，采用各文本分词各自的权重，对各文本分词的Hash编码进行加权处理，则可以形成各文本分词的加权数字串，该加权数字串即为该文本分词的权值序列；需要说明的是，在加权处理过程中，若二进制位为1，权重为正值，若二进制位为0，权重为负值；例如：假设“中国”的Hash编码为“100101”，通过将其采用权重4进行加权后，可得到“4-4-44-44”的加权数字串，则“4-4-44-44”即为“中国”这一文本分词的权值序列。

S206，将所述各文本分词的权值序列进行合并处理，获得所述页面内容文本对应的权值序列串。

经过步骤S205，每一个文本分词均对应一个权值序列，本步骤则将各文本分词的权值序列进行按位累加计算，合并为一个权值序列串，该权值序列串即可表征所述页面内容文本的特征。例如：假设“中国”的权值序列为“4-4-44-44”，“互联网”的权值序列为“5-55-555”，本步骤对二者进行合并处理过程为“4+5-4+-5-4+54+-5-4+54+5”，从而得到“9-91-119”的权值序列串；同理，本步骤可获得所述页面内容文本对应的权值序列串。

S207，对所述页面内容文本对应的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码。

本步骤中，将所述页面内容文本对应的权值序列串进行降维处理的目的，即是将所述页面内容文本对应的权值序列串转换为二进制编码，从而生成所述页面内容文本对应的Simhash编码。需要说明的是，在降维处理过程中，将所述页面内容对应的权值序列串中大于0的位设置为1，小于0的位设置为0；例如：“9-91-119”的权值序列串经降维处理后，可得到的Simhash编码为“101011”。

S208，将所述页面内容文本对应的Simhash编码确定为待检测编码。

本实施例的步骤S203-S208可以为图1所示实施例中的步骤S101的具体细化步骤。本实施例的步骤S203-S208将页面内容文本转换为二进制数值表示的待检测编码，方便在本实施例的后续流程中采用对二进制数值进行分析的方式，可避免直接对页面内容文本的字符分析所带来的资源耗费，提升安全性检测的效率。

S209，判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码；若判断结果为是，转入步骤S210；否则，结束。

其中，所述恶意样本编码库中包括至少一个恶意样本编码，一个恶意样本编码指采用预设的编码算法对一个恶意网址对应的网页文件的页面内容文本进行编码计算获得的编码。所述预设的编码算法优选为Simhash算法，所述恶意样本编码优选为Simhash编码。本步骤中，如果恶意样本编码库中存在与所述待检测编码相似的恶意样本编码，利用Simhash算法的特点可知，该待检测编码即为一恶意样本编码，从而可转入步骤S210确定客户端上报的网址为一恶意网址。

本步骤S209的判断过程具体可以参见如下流程：

A、将所述待检测编码与所述恶意样本编码库中的各恶意样本编码进行二进制位比较。

例如：假设恶意样本编码库中包含a、b、c三个恶意样本编码，待检测编码为k，步骤A中需要分别将k与a进行二进制位比较，将k与b进行二进制位比较，将k与c进行二进制位比较。

B、若所述恶意样本编码库中任一恶意样本编码与所述待检测编码具有差异二进制位，且差异二进制位的数量小于预设阈值，则判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码。

参见步骤A中的例子，如果k与a、b、c三者之一具有差异二进制位(即不同的二进制位)，且差异二进制位的数量小于预设阈值，则可判断恶意样本编码库中存在与k相似的恶意样本编码，例如：假设k、a、b、c均为6位二进制，预设阈值为2，如果k与a仅有1个差异二进制位，由此可判断k与a相似，即判断恶意样本编码库中存在与待检测编码相似的恶意样本编码。相反，如果k与a、b或c的差异二进制位的数量均大于或等于预设阈值，则可判断k与a、b、c均不相似，从而判断所述恶意样本编码库中没有与所述待检测编码相似的恶意样本编码。

S210，确定所述网址为恶意网址。

本实施例的步骤S209-步骤S210可以为图1所示实施例中的步骤S103的具体细化步骤。

请参见图3，为本发明实施例提供的又一种网址安全性检测方法流程图；本实施例中，所述预设的编码算法优选为Simhash算法。该方法可包括以下步骤S301-步骤S312。

S301，接收客户端上报的网址。

本发明实施例中，客户端上报的网址指客户端从浏览器地址栏采集到的当前正在访问的网址，以保证客户端当前访问的安全性，但可以理解的是，本发明实施例并不对此进行限定，客户端上报的网址还可以是客户端收集到的用户输入并请求查询的网址，等等。

S302，判断所述网址是否为白名单库中的安全网址；如果判断结果为否，转入步骤S303，否则，结束。

所述白名单库中包含至少一个安全网址。安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等，本实施例中，安全网址可被收录于白名单库中，以用于对客户端上报的网址的安全性进行初步检测。

S303，根据客户端上报的网址，下载所述网址对应的网页文件。

S304，解析所述网页文件，获取所述网页文件的页面内容文本。

S305，对所述页面内容文本进行分词处理，获得至少一个文本分词。

S306，采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码。

S307，对各文本分词的Hash编码进行加权处理，获得各文本分词的权值序列。

S308，将所述各文本分词的权值序列进行合并处理，获得所述页面内容文本对应的权值序列串。

S309，对所述页面内容文本对应的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码。

S310，将所述页面内容文本对应的Simhash编码确定为待检测编码。

S311，判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码；若判断结果为是，转入步骤S312；否则，结束。

S312，确定所述网址为恶意网址。

本实施例的步骤S303-步骤S312可参见图2所示实施例的步骤S201-步骤S210，在此不赘述。

下面将结合附图4-附图9，对本发明实施例提供的网址安全性检测装置进行详细介绍。需要说明的是，附图4-附图9所示的网址安全性检测装置可运行于服务器中，用于执行附图1-附图3所示的网址安全性检测方法。

请参见图4，为本发明实施例提供的一种网址安全性检测装置的结构示意图；该装置可包括：文本获取模块101、编码模块102和安全检测模块103。

文本获取模块101，用于根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本。

其中，网址指网页(或网站)地址，可以为URL。根据网址的安全性划分，网址可分为安全网址和恶意网址；安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等；恶意网址指各类欺诈、仿冒、钓鱼和挂马等网页地址，例如：仿冒各类正规网站的恶意网址等等，客户端访问恶意网址可能造成客户端隐私信息泄漏、木马病毒感染等危害。所述文本获取模块101可以根据客户端上报的网址，从该网址对应的网页文件中获取页面内容文本以作后续的安全性检测分析。本发明实施例中，客户端上报的网址指客户端从浏览器地址栏采集到的当前正在访问的网址，以保证客户端当前访问的安全性，但可以理解的是，本发明实施例并不对此进行限定，客户端上报的网址还可以是客户端收集到的用户输入并请求查询的网址，等等。

编码模块102，用于采用预设的编码算法将所述页面内容文本转换为待检测编码。

安全检测模块103，用于分析所述待检测编码以确定所述网址的安全性。

所述安全检测模块103可以将待检测编码与已知的恶意网址对应的页面文本内容的编码进行比对，如果二者相似，则可确定客户端上报的待检测的网址为恶意网址，从而快速确定出网址安全性。

请参见图5，为本发明实施例提供的另一种网址安全性检测装置的结构示意图；该装置可包括：文本获取模块101、编码模块102、安全检测模块103和白名单判断模块104。其中，文本获取模块101、编码模块102和安全检测模块103的结构和功能可参见图4所示实施例的相关描述，在此不赘述。

白名单判断模块104，用于判断所述网址是否为白名单库中的安全网址。

请参见图6，为本发明实施例提供的一种文本获取模块的结构示意图；该文本获取模块101可包括：下载单元1101、解析单元1102和文本提取单元1103。

下载单元1101，用于根据客户端上报的网址，下载所述网址对应的网页文件。

其中，网址指网页(或网站)地址，可以为URL。根据网址安全性划分，网址可分为安全网址和恶意网址；安全网址指正规网站的地址，例如：各大银行的官方网址、各购物网站的官方网址等等；恶意网址指各类欺诈、仿冒、钓鱼和挂马等网页地址，例如：仿冒各类正规网站的恶意网址等等，客户端访问恶意网址可能造成客户端的隐私信息泄漏、木马病毒感染等危害。所述下载单元1101根据客户端上报的网址，可以从网络服务器中下载该网址对应的网页文件，该网页文件包括但不限于：HTML文件、JS文件、CSS文件等等，本发明实施例中，客户端上报的网址指客户端从浏览器地址栏采集到的当前正在访问的网址，以保证客户端当前访问的安全性，但可以理解的是，本发明实施例并不对此进行限定，客户端上报的网址还可以是客户端收集到的用户输入并请求查询的网址，等等。

解析单元1102，用于解析所述网页文件，获取所述网页文件的页面内容文本。

请参见图7，为本发明实施例提供的一种编码模块的结构示意图；本实施例中，所述预设的编码算法优选为Simhash算法。该编码模块102可包括：分词处理单元1201、编码计算单元1202、加权单元1203、合并单元1204、降维处理单元1205和编码确定单元1206。

分词处理单元1201，用于对所述页面内容文本进行分词处理，获得至少一个文本分词。

其中，所述分词处理单元1201可灵活采用各种分词方法，对所述页面内容文本进行分词处理的方法，该分词方法包括但不限于：基于字符串匹配的分词方法、基于统计的分词方法等等。分词处理的目的在于去除停词或噪音词，诸如：的、了、呀等等，提取表征页面内容文本的特征的文本分词；例如：针对“中国的互联网技术的发展趋势”的页面内容文本，经过所述分词处理单元1201的分词处理后，可获得的文本分词如下：“中国”、“互联网”、“技术”、“发展”、“趋势”。

编码计算单元1202，用于采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码。

其中，一个文本分词对应一个Hash编码。所述编码计算单元1202将文本分词编码为Hash编码，即是将一个字符串转换为二进制数值的过程。

加权单元1203，用于对各文本分词的Hash编码进行加权处理，获得各文本分词的权值序列。

按照各文本分词在页面内容文本中的重要程度，可以为各文本分词分配权重；例如：按照本实施例中的例子，可设置权重级别为1-5，权重值越大，表明该文本分词在页面内容文本中的重要程度越高，如“中国”权重可为4，“互联网”权重可为5，“技术”权重可为3，“发展”权重可为4，“趋势”权重可为2。所述加权单元1203采用各文本分词各自的权重，对各文本分词的Hash编码进行加权处理，则可以形成各文本分词的加权数字串，该加权数字串即为该文本分词的权值序列；需要说明的是，在加权处理过程中，若二进制位为1，权重为正值，若二进制位为0，权重为负值；例如：假设“中国”的Hash编码为“100101”，通过将其采用权重4进行加权后，可得到“4-4-44-44”的加权数字串，则“4-4-44-44”即为“中国”这一文本分词的权值序列。

合并单元1204，用于将所述各文本分词的权值序列进行合并处理，获得所述页面内容文本对应的权值序列串。

经过所述加权单元1203的处理，每一个文本分词均对应一个权值序列，所述合并单元1204则将各文本分词的权值序列进行按位累加计算，合并为一个权值序列串，该权值序列串即可表征所述页面内容文本的特征。例如：假设“中国”的权值序列为“4-4-44-44”，“互联网”的权值序列为“5-55-555”，所述合并单元1204对二者进行合并处理过程为“4+5-4+-5-4+54+-5-4+54+5”，从而得到“9-91-119”的权值序列串；同理，可获得所述页面内容文本对应的权值序列串。

降维处理单元1205，用于对所述页面内容文本的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码。

所述降维处理单元1205将所述页面内容文本对应的权值序列串进行降维处理的目的，即是将所述页面内容文本对应的权值序列串转换为二进制编码，从而生成所述页面内容文本对应的Simhash编码。需要说明的是，在降维处理过程中，将所述页面内容对应的权值序列串中大于0的位设置为1，小于0的位设置为0；例如：“9-91-119”的权值序列串经降维处理后，可得到的Simhash编码为“101011”。

编码确定单元1206，用于将所述页面内容文本对应的Simhash编码确定为待检测编码。

请参见图8，为本发明实施例提供的一种安全检测模块的结构示意图；该安全检测模块103可包括：判断单元1301和安全性确定单元1302。

判断单元1301，用于判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码。

具体实现中，所述判断单元1301的结构可参见图9，为本发明实施例提供的一种判断单元的结构示意图；该判断单元1301可包括：比较子单元1311和判断子单元1312。

比较子单元1311，用于将所述待检测编码与所述恶意样本编码库中的各恶意样本编码进行二进制位比较。

例如：假设恶意样本编码库中包含a、b、c三个恶意样本编码，待检测编码为k，所述比较子单元1311需要分别将k与a进行二进制位比较，将k与b进行二进制位比较，将k与c进行二进制位比较。

判断子单元1312，用于当所述恶意样本编码库中任一恶意样本编码与所述待检测编码具有差异二进制位，且差异二进制位的数量小于预设阈值时，判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码。

参见上述例子，如果k与a、b、c三者之一具有差异二进制位(即不同的二进制位)，且差异二进制位的数量小于预设阈值，则可判断恶意样本编码库中存在与k相似的恶意样本编码，例如：假设k、a、b、c均为6位二进制，预设阈值为2，如果k与a仅有1个差异二进制位，由此可判断k与a相似，即判断恶意样本编码库中存在与待检测编码相似的恶意样本编码。相反，如果k与a、b或c的差异二进制位的数量均大于或等于预设阈值，则可判断k与a、b、c均不相似，从而判断所述恶意样本编码库中没有与所述待检测编码相似的恶意样本编码。

安全性确定单元1302，用于当判断所述恶意样本编码库中存在与所述待检测编码相似的恶意样本编码时，确定所述网址为恶意网址。

其中，所述恶意样本编码库中包括至少一个恶意样本编码，一个恶意样本编码指采用预设的编码算法对一个恶意网址对应的网页文件的页面内容文本进行编码计算获得的编码。所述预设的编码算法优选为Simhash算法，所述恶意样本编码优选为Simhash编码。如果所述判断单元1301判断恶意样本编码库中存在与所述待检测编码相似的恶意样本编码，利用Simhash算法的特点可知，所述安全性确定单元1302可确定该待检测编码即为一恶意样本编码，从而可确定客户端上报的网址为一恶意网址。

本发明实施例还公开了一种服务器，该服务器可包含一网址安全性检测装置，该网址安全性检测装置的结构和功能可参见上述图4-图9所示实施例的相关描述，在此不赘述。

本发明实施例还公开了另一种服务器，具体请参见图10，为本发明实施例提供的一种服务器的结构示意图；本发明实施例的服务器包括：至少一个处理器201，例如CPU，至少一个通信总线202，至少一个网络接口203，存储器204。其中，通信总线202用于实现这些组件之间的连接通信。其中，所述网络接口203可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。所述存储器204可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器204可选的还可以是至少一个位于远离前述处理器201的存储装置。如图8所示，作为一种计算机存储介质的存储器204中存储有操作系统、网络通信模块，并存储有用于进行网址安全性检测的程序以及其他程序。

其中具体的，所述处理器201可以用于调用所述存储器204中存储的用于进行网址安全性检测的程序，执行以下步骤：

分析所述待检测编码以确定所述网址的安全性。

进一步，所述处理器201在执行根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本的步骤时，具体执行如下步骤：

根据客户端上报的网址，下载所述网址对应的网页文件；

解析所述网页文件，获取所述网页文件的页面内容文本。

进一步，所述处理器201在执行所述根据客户端上报的网址，下载所述网址对应的网页文件的步骤之前，还执行以下步骤：

进一步，所述预设的编码算法为Simhash算法；所述处理器201在执行所述采用预设的编码算法将所述页面内容文本转换为待检测编码的步骤时，具体执行如下步骤：

采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码；

对所述页面内容文本对应的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码；

将所述页面内容文本对应的Simhash编码确定为待检测编码。

进一步，所述处理器201在执行所述分析所述待检测编码以确定所述网址的安全性的步骤时，具体执行如下步骤：

进一步，所述处理器201在执行所述判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码的步骤时，具体执行如下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种网址安全性检测方法，其特征在于，包括：

将所述页面内容文本对应的Simhash编码确定为待检测编码；

分析所述待检测编码以确定所述网址的安全性。

2.如权利要求1所述的方法，其特征在于，所述根据客户端上报的网址，从所述网址对应的网页文件中获取页面内容文本，包括：

根据客户端上报的网址，下载所述网址对应的网页文件；

解析所述网页文件，获取所述网页文件的页面内容文本。

3.如权利要求2所述的方法，其特征在于，所述根据客户端上报的网址，下载所述网址对应的网页文件之前，还包括：

4.如权利要求1所述的方法，其特征在于，所述分析所述待检测编码以确定所述网址的安全性，包括：

5.如权利要求4所述的方法，其特征在于，所述判断恶意样本编码库中是否存在与所述待检测编码相似的恶意样本编码，包括：

6.一种网址安全性检测装置，其特征在于，包括：

安全检测模块，用于分析所述待检测编码以确定所述网址的安全性；

所述编码模块包括：

分词处理单元，用于对所述页面内容文本进行分词处理，获得至少一个文本分词；

编码计算单元，用于采用Hash算法对各文本分词进行编码计算，获得各文本分词的Hash编码；

降维处理单元，用于对所述页面内容文本的权值序列串进行降维处理，生成所述页面内容文本对应的Simhash编码；

其中，所述预设的编码算法为Simhash算法。

7.如权利要求6所述的装置，其特征在于，所述文本获取模块包括：

8.如权利要求7所述的装置，其特征在于，还包括：

9.如权利要求6所述的装置，其特征在于，所述安全检测模块包括：

10.如权利要求9所述的装置，其特征在于，所述判断单元包括：

11.一种服务器，其特征在于，包括如权利要求6-10任一项所述的网址安全性检测装置。