CN106055574B

CN106055574B - 一种识别非法统一资源标识符url的方法与装置

Info

Publication number: CN106055574B
Application number: CN201610340764.4A
Authority: CN
Inventors: 丁玲; 罗诗尧
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2019-12-24
Anticipated expiration: 2036-05-19
Also published as: CN106055574A

Abstract

本申请公开了一种识别非法统一资源标识符URL的方法与装置。该方法包括：确定待识别的第一URL；当所述第一URL不在预设的黑名单中时，提取所述第一URL对应的网页中的内容，其中，所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种；确定所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度；根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL。该方法用以降低漏识别率。

Description

一种识别非法统一资源标识符URL的方法与装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种识别非法URL的方法与装置。

背景技术

随着互联网的飞速发展，互联网信息资源的种类和数量越来越多。这一发展趋势，虽然能够让互联网用户获取到更为丰富的互联网信息资源，但与此同时，也导致网络安全问题日益突出。比如，大量的非法互联网信息资源(后称非法信息，如与色情、暴力或反动言论等有关的信息)充斥在互联网中，严重影响着人们的身心健康。

为避免非法信息对于人们产生不良影响，有必要对非法统一资源定位符(UniformResource Locator，URL)进行识别，进而对识别出的非法URL进行一些处理，比如触发客户端对非法URL进行屏蔽等。

现有技术中，识别一个URL是否为非法URL，主要采用下述两种方法：

方法一：人工识别，即，人工对每一个待识别的URL对应的网页中的内容进行浏览，从而识别出所述待识别的URL是否为非法URL。但是该方法速度较慢，效率较低。

方法二：查看待识别的URL是否存在于黑名单中，若存在于所述黑名单中，则确定所述待识别的URL为非法URL；若不存在于所述黑名单中，则确定所述待识别的URL不为非法URL。其中，所述黑名单中保存着已知的非法URL。

该方法存在的缺陷在于，黑名单中包含的非法URL的数量有限，导致对于实际为非法URL的待识别的URL的漏识别率较高。另外黑名单中包含的非法URL均是曾经出现过的URL，对于新出现的URL，则不能准确识别该URL是否为非法URL，这也造成了对于实际为非法URL的待识别的URL的漏识别率较高。

因此，目前亟需一种识别非法URL的方法，用于降低漏识别率。

发明内容

本申请实施例提供一种识别非法统一资源标识符URL的方法，用以降低漏识别率。

本申请实施例提供一种识别非法统一资源标识符URL的装置，用以降低漏识别率。

本申请实施例采用下述技术方案：

一种识别非法统一资源标识符URL的方法，所述方法包括：

确定待识别的第一URL；

当所述第一URL不在预设的黑名单中时，提取所述第一URL对应的网页中的内容，其中，所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种；

确定所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度；

根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL。

一种识别非法统一资源标识符URL的装置，所述装置包括：

第一确定模块，用于确定待识别的第一URL；

提取模块，用于当所述第一URL不在预设的黑名单中时，提取所述第一URL对应的网页中的内容，其中，所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种；

第二确定模块，用于确定所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度；

识别模块，用于根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本申请实施例除了在黑名单中查找是否存在待识别的URL来识别所述待识别的URL是否为非法URL之外，还通过确定所述待识别的URL自身与非法URL的第一相似度，以及确定所述待识别的URL对应的网页中的内容与已知的非法内容的第二相似度，根据所述第一相似度与第二相似度，来识别待识别的URL是否为非法URL。因此，提高了识别依据的丰富性，降低了漏识别率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种识别非法统一资源标识符URL的方法的具体流程示意图；

图2为本申请实施例提供的用户发送第一URL的用户操作界面示意图；

图3为本申请实施例提供的一种识别非法统一资源标识符URL的方法的具体流程示意图；

图4为本申请实施例提供的一种识别非法统一资源标识符URL的装置的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请实施例提供的技术方案。

为了降低漏识别率，本申请实施例提供一种识别非法统一资源标识符URL的方法。

该方法的执行主体，可以但不限于为手机、平板电脑或个人电脑(PersonalComputer，PC)等用户终端，或者该些用户终端上运行的应用(Application，APP)，或者，还可以是服务器等设备。

为便于描述，下文以该方法的执行主体为服务器为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为服务器只是一种示例性的说明，并不应理解为对该方法的限定。

该方法的具体流程示意图如图1所示，包括下述步骤：

步骤11，确定待识别的第一URL。

在本申请实施例中，服务器首先要确定需要进行识别的各URL，即为，待识别的第一URL。具体的，服务器可通过诸如网络爬虫等软件，批量获取网络中的各URL，分别作为待识别的第一URL(以下将待识别的第一URL简称为第一URL)，并对每个第一URL均进行识别。

当然，用户或其他设备也可将待识别的第一URL主动发送给该服务器进行识别，如，当用户不清楚一个未知的URL是否为非法URL时，可将该未知的URL作为待识别的第一URL发送给服务器，使服务器对该第一URL进行识别。如图2所示，用户可以通过图2所示的用户操作界面，将一个待识别的第一URL输入用户操作界面中的输入框，点击用户操作界面中的提交控件，便可将所述第一URL发送给服务器。

步骤12，当所述第一URL不在预设的黑名单中时，提取所述第一URL对应的网页中的内容。

其中，服务器可预先保存黑名单，该黑名单中记录有已知的非法URL。当服务器确定了第一URL后，可先将该第一URL与该黑名单中的各非法URL进行比对，如果该第一URL与该黑名单中的某个非法URL相同，则服务器可直接确定该第一URL为非法URL，而无需再执行下述的步骤13～14。

如果该黑名单中没有任何一个非法URL与该第一URL相同，则说明仅根据该黑名单，尚不足以识别该第一URL是否为非法URL，此时，服务器则可提取该第一URL对应的网页中的内容，并根据提取的内容，识别该第一URL是否为非法URL。

考虑到不同商家的服务器对非法URL的识别策略不同，即，不同服务器的黑名单中记录的非法URL可能不同，因此，当服务器确定该第一URL不存在于自身保存的黑名单中时，还可判断该第一URL是否存在于其他服务器(即，第三方设备)保存的黑名单中，如果该第一URL存在于其他服务器保存的黑名单中，则该服务器也可直接确定该第一URL为非法URL，如果该第一URL既不存在于该服务器自身保存的黑名单中，也不存在于其他服务器保存的黑名单中，服务器则可提取该第一URL对应的网页中的内容，并根据提取的内容进行后续识别。

具体的，服务器可在确定该第一URL不存在于自身保存的黑名单中时，获取其他服务器保存的黑名单，再判断该第一URL是否存在于其他服务器保存的黑名单中，也可按照设定的时间间隔，周期性的获取其他服务器保存的黑名单并存储。当然，该服务器也可周期性的将自身保存的黑名单提供给其他服务器使用，这里就不再一一赘述。

进一步的，服务器提取第一URL对应的网页中的内容时，具体可提取该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种，作为提取出的内容。

步骤13，确定所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度。

在实际应用中，当所述第一URL不在黑名单中时，若该第一URL自身包含的字符串与已知的非法URL包含的字符串相似，那么该第一URL是非法URL的可能性便很大。另外，若该第一URL对应的网页中的内容包含非法内容，或者与已知的非法内容相似，那么该URL是非法URL的可能性便很大。

因此，可以通过执行步骤13确定出所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度，后续则可根据该第一相似度和第二相似度来进一步识别所述第一URL是否为非法URL。

其中，由步骤12可知，服务器提取的第一URL对应的网页中的内容，包括该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种，那么确定出的所述第二相似度可以包括下述四种相似度中的至少一种：

各第二URL与已知的非法URL的URL相似度；

文本信息与预设的非法词库中各关键词的文本相似度；

图像信息与预设的非法图库中各图像的图像相似度；

视频信息中各帧图像与所述非法图库中各图像的视频相似度。

其中，第二相似度包含URL相似度、文本相似度、图像相似度以及视频相似度中的哪一种或哪几种，取决于在执行步骤12时，服务器提取的内容是第二URL、文本信息、图像信息、视频信息中的哪一种或哪几种。比如，若服务器提取的内容包括各第二URL、文本信息、图像信息、视频信息这四种信息，那么第二相似度便包括URL相似度、文本相似度、图像相似度以及视频相似度这四种相似度。

步骤14，根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL。

在实际应用中，由于第一URL自身以及第一URL对应的网页中的内容，对第一URL是否为非法URL的影响程度是不同的。因此，可以按照实际情况，根据第一相似度和第二相似度，以及预设分数确定规则，确定出不同的相似度对应的分数值，使得服务器可以根据分数值，识别所述第一URL是否为非法URL。其中，分数值越大，表明所述第一URL是非法URL的可能性越大。

当第二相似度包括URL相似度、文本相似度、图像相似度以及视频相似度这四种相似度时，可以将第一URL相似度与URL相似度中的最大值确定为第三相似度，将图像相似度与视频相似度中的最大值确定为第四相似度，并根据预设分数值确定规则，分别确定出第三相似度、文本相似度以及第四相似度对应的分数值。在确定出该些分数值之后，可以确定该些分数值和值或加权和值，得到一个总分数值。服务器便可以根据该总分数值，以及预设的识别规则，识别第一URL是否为非法URL。例如，当总分数值不小于预设分数阈值时，识别所述第一URL为非法URL；当总分数值小于预设分数阈值时，识别所述第一URL不为非法URL。

其中，当第二相似度仅包括URL相似度、文本相似度、图像相似度以及视频相似度中的部分相似度时，仍可以沿用上述方法识别第一URL是否为非法URL。比如，若第二相似度只包括URL相似度以及文本相似度，那么可以将图像相似度以及视频相似度的值均视为零。同样运用上述方法，识别所述第一URL是否为非法URL。

由此可知，所述第二相似度包括何种相似度，均不影响利用上述方法识别所述第一URL是否为非法URL。

除了上述方法外，服务器还可以利用已经训练好的识别模型，识别所述第一URL是否为非法URL。具体的，服务器可将得到的所有相似度的值输入该模型，该模型通过计算，输出结果。服务器可以根据输出结果，识别所述第一URL是否为非法URL。

上述方法除了在黑名单中查找是否存在待识别的URL，来识别所述待识别的URL是否为非法URL之外，还通过确定所述待识别的URL自身与非法URL的第一相似度，以及确定所述待识别的URL对应的网页中的内容与已知的非法内容的第二相似度，根据所述第一相似度与第二相似度，来识别待识别的URL是否为非法URL。因此，提高了识别依据的丰富性，降低了漏识别率。

需要特别说明的是，本申请中所述的非法URL包括但不限于色情URL、暴力URL、反动URL或钓鱼URL等。其中，相较于暴力URL、反动URL或钓鱼URL等URL，本申请提供的上述识别非法URL的方法，尤其适用于识别第一URL是否为色情URL，这是因为在实际应用中，对于钓鱼URL对应的网页来说，由于该网页与正常的合法网页基本相同，因此，该网页中包含的第二URL一般均为正常的合法URL，而对于色情URL对应的网页来说，该网页中包含的第二URL一般仍然是色情URL，因此，当上述步骤12中从第一URL对应的网页中提取出的内容包括该网页包含的各第二URL时，该方法尤其适用于对色情URL的识别。

由于上述步骤12中从第一URL对应的网页中提取出的内容包括该网页包含的各第二URL、文本信息、图像信息、视频信息中的至少一种，因此，下面详细说明步骤13中如何确定第一相似度、URL相似度、文本相似度、图像相似度以及视频相似度。

1、确定第一相似度的方法：

可分别将第一URL与每一个已知的非法URL转化成向量，分别计算第一URL转化成的向量与每一个已知的非法URL转化成的向量间的相似度，最终将相似度中的最大值确定为第一相似度。

具体的，可将第一URL拆分成各第一字符串，且针对每个已知的非法URL，将该非法URL拆分成各非法字符串。其中，可以以URL中包含的点或者斜杠为分隔符来拆分URL，也可以以预设的字母或数字为分隔符拆分URL。但是，需要特别说明的是，需按照相同的拆分方法拆分第一URL与已知的非法URL。因为这样，拆分出的字符串才有可比性。

在拆分完毕后，比较各第一字符串与各非法字符串是否相同，并根据比较结果，生成第一URL对应的向量以及该非法URL对应的向量。例如，针对于第一URL，可将与各非法字符串相同的各第一字符串赋值为1，将与各非法字符串不相同的各第一字符串赋值为0。针对于该非法URL，可将每个非法字符串均赋值为1。那么，对于第一URL来说，以拆分出的第一字符串的数量为向量维数，以为每个第一字符串所赋的值为元素值，生成第一URL对应的向量，对于非法URL来说，以拆分出的非法字符串的数量为向量维数，以为每个非法字符串所赋的值为元素值，生成该非法URL对应的向量，进而可根据第一URL对应的向量以及该非法URL对应的向量确定第一URL与该非法URL的相似度。

但是，在实际应用中，第一字符串的数量(后称第一数量)与该非法字符串的数量(后称第二数量)可能是不同的，这便导致生成的第一URL对应的向量以及该非法URL对应的向量的维数不同。为了后续计算方便，可以将大于第一数量与第二数量中最大值的数值，作为生成的第一URL对应的向量以及该非法URL对应的向量的维数。例如，可以将第一数量与第二数量之和(第三数量)作为生成的第一URL对应的向量以及该非法URL对应的向量的维数。并通过在已经生成的所述第一URL对应的向量以及该非法URL对应的向量中补零，生成第一URL对应的第一向量以及该非法URL对应的第二向量补零后的第一向量和第二向量的维数相同。其中，可以在已经生成的第一URL对应的向量以及该非法URL对应的向量的末端或前端补零。

在确定出第一向量与第二向量之后，可以通过下述公式1计算这两个向量间的余弦值，并将该余弦值作为第一URL与该非法URL的相似度。其中，余弦值越大，表明两个向量间的相似度越大。

其中，i为第三数量，a_i为各第一字符串的值，b_i为各非法字符串的值。

例如，假设拆分第一URL得到的第一字符串的数量为3，假设拆分一个非法URL得到的非法字符串的数量为5，拆分第一URL得到的第三个第一字符串，与拆分非法URL得到的某个非法字符串相同。那么，第一URL对应的向量为(0,0,1,0,0,0,0,0)，该非法URL对应的向量为(1,1,1,1,1,0,0,0)。通过公式1计算这两个向量间的余弦值为0.45。于是，这两个向量间的相似度为45％。那么，第一URL与该非法URL的相似度为45％。

在确定出第一URL与每一个非法URL的相似度后，可将第一URL与每个非法URL的相似度中的最大值确定为第一相似度。

需要特别说明的是，本申请实施例不限定确定第一相似度的方法，可采用任何一种可以表征两个URL相似度的方法来确定第一相似度。例如除上述方法外，还可以采用计算向量间欧式距离的方法，来计算生成的第一URL对应的向量以及该非法URL对应的向量的相似度，进而根据确定出的所述相似度确定第一相似度。

2、确定URL相似度的方法如下：

可以将每一个第二URL和每一个预设的非法URL分别转化成向量，计算每一个第二URL对应的向量以及每一个非法URL对应的向量间的相似度，最终将所述相似度中的最大值，确定为URL相似度。

具体的，针对每个第二URL，将该第二URL拆分成各第二字符串。针对每个预设的非法URL，将该非法URL拆分成各非法字符串。其中，拆分第二URL和非法URL的方法，可参见确定第一相似度的方法中所提及的拆分方法，此处不再进行赘述。

在拆分完毕后，比较各第二字符串与各非法字符串是否相同，并根据比较结果，生成该第二URL对应的向量以及该非法URL对应的向量。例如，可以根据确定第一相似度的方法中，所提及的生成维数相同的向量的方法，生成该第二URL对应的向量以及该非法URL对应的向量。

在确定出该第二URL对应的向量以及该非法URL对应的向量后，可以通过公式1计算这两个向量间的余弦值，并将该余弦值作为该第二URL与该非法URL的相似度。

在确定出该第二URL与每个非法URL的相似度后，确定出该第二URL与每个非法URL的相似度中的最大相似度。并根据针对每个第二URL确定出的最大相似度，将各最大相似度中的最大值确定为URL相似度。

需要特别说明的是，本申请实施例不限定确定URL相似度的方法，可采用任何一种可以表征两个URL相似度的方法来确定URL相似度。例如除上述方法外，还可以采用计算向量间欧式距离的方法，来计算生成的该第二URL对应的向量以及该非法URL对应的向量的相似度，进而根据确定出的所述相似度确定URL相似度。

3、确定文本相似度的方法如下：

分别将文本信息与预设的非法词库转化成向量，通过计算这两个向量的相似度，来确定出文本相似度。

具体的，对文本信息进行分词处理，获取文本信息中的每个词(后称第一词)。比较第一词与预设的非法词库中各关键词是否相同。根据比较结果，生成所述文本信息对应的向量以及所述预设的非法词库对应的向量。例如，针对于文本信息，可将与预设的非法词库中各关键词相同的各第一词赋值为1，将与预设的非法词库中各关键词不相同的各第一词赋值为0。针对于预设的非法词库，可将预设的非法词库中每个关键词均赋值为1。那么，对于文本信息来说，以第一词的数量为向量维数，以为每个第一词所赋的值为元素值，生成文本信息对应的向量。对于预设的非法词库来说，以预设的非法词库中的关键词的数量为向量维数，以为每个关键词所赋的值为元素值，生成预设的非法词库对应的向量，进而可根据文本信息对应的向量以及预设的非法词库对应的向量，来确定文本相似度。

但是，第一词的数量与预设的非法词库中的关键词的数量可能不同，这便导致文本信息对应的向量以及预设的非法词库对应的向量的维数可能不同。为了后续便于计算，可以将不小于第一词的数量与预设的非法词库中的关键词的数量中的最大值的数值，作为生成的文本信息对应的向量以及预设的非法词库对应的向量的维数。例如，一般情况下，第一词的数量小于预设的非法词库中的关键词的数量，因此，可以将预设的非法词库中的关键词的数量作为生成的文本信息对应的向量以及预设的非法词库对应的向量的维数。并通过在已经生成的文本信息对应的向量以及预设的非法词库对应的向量中补零，生成文本信息对应的向量以及预设的非法词库对应的向量。补零后的文本信息对应的向量以及预设的非法词库对应的向量的维数相同。其中，可以在已经生成的文本信息对应的向量以及预设的非法词库对应的向量的末端或前端补零。

在确定出文本信息对应的向量以及预设的非法词库对应的向量后，可以通过公式1计算这两个向量的余弦值，并将该余弦值作为文本相似度。

需要特别说明的是，本申请实施例不限定确定文本相似度的方法，可采用任何一种可以表征文本相似度的方法来确定文本相似度。例如除上述方法外，还可以采用计算向量间欧式距离的方法，来计算生成的文本信息对应的向量以及预设的非法词库对应的向量的相似度，进而根据该相似度确定出文本相似度。

4、确定图像相似度的方法如下：

对各图像信息与预设的非法图库中各图像进行聚类。根据聚类结果，确定所述图像相似度。

具体的，对各图像信息与预设的非法图库中各图像进行聚类，可以通过已经训练好的图像分类器，对各图像信息与预设的非法图库中各图像进行聚类。在聚类后，根据每个图像信息所在的类中包含的所述非法图库中的图像的数量(后称第四数量)，以及预设图像相似度确定规则，确定每个图像与预设的非法图库中各图像的相似度。在分别确定出每个图像与预设的非法图库中各图像的相似度后，可以将所述相似度中的最大值，确定为图像相似度。

所述预设图像相似度确定规则，如下所述：

当所述第四数量为0时，所述图像相似度的值为第一预设相似度；

当所述第四数量为1～2时，所述图像相似度的值为第二预设相似度；

当所述第四数量为3～4时，所述图像相似度的值为第三预设相似度；

当所述第四数量>4时，所述图像相似度的值为第四预设相似度。

需要特别说明的是，本申请实施例不限定确定图像相似度的方法，可采用任何一种可以表征图像相似度的方法来确定图像相似度。例如除上述方法外，还可以采用灰度直方图的方法来确定每幅图像与非法图像的相似度，根据确定出的所述相似度，最终确定图像相似度。

5、确定视频相似度的方法如下：

针对每一个视频信息，获取该视频信息中各帧图像。对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类。根据聚类结果，确定该视频信息中各帧图像与预设的非法图库中各图像的相似度。并根据针对每一个视频信息确定的相似度，将最大相似度确定为视频相似度。

具体的，确定每一个视频信息与预设的非法图库的相似度的方法与确定图像相似度的方法类似，此处不再进行赘述。

在分别确定出每一个视频信息与预设的非法图库的相似度后，将该些相似度中的最大相似度确定为视频相似度。

需要特别说明的是，本申请实施例不限定确定视频相似度的方法，可采用任何一种可以表征视频相似度的方法来确定图像相似度。例如除上述方法外，还可以采用灰度直方图的方法来确定视频信息中的各帧图像与非法图像的相似度，根据确定出的所述相似度，最终确定视频相似度。

采用上述方法确定出包括URL相似度、文本相似度、图像相似度、视频相似度在内的第二相似度后，则可通过如图1所示的步骤14，识别该第一URL是否为非法URL。

另外，在本申请中，采用上述方法识别了第一URL是否为非法URL后，还可保存对所述第一URL的识别结果，并在保存对所述第一URL的识别结果后，按设定时间间隔，采用上述同样的方法重复对所述第一URL进行识别，当连续N次将所述第一URL识别为非法URL时，则可将所述第一URL添加到所述黑名单中。其中，N为预设的正整数。

将所述第一URL添加到所述黑名单中，这样可以扩大黑名单保存的已知的非法URL的数量与范围，以使得服务器在后续识别待识别的URL时，增大待识别的URL存在于黑名单中的可能性，以使得降低执行步骤11～步骤14的可能性，这样便于节省资源。

需要说明的是，将第一URL添加到的黑名单，可以是服务器自身保存的黑名单，也可以是从其他服务器(即，第三方设备)获取到的黑名单，如果将第一URL添加到第三方设备的黑名单中，则服务器还可在添加后，将添加了第一URL的黑名单返回给第三方设备保存。

在本申请实施例中，可通过非法URL识别系统，来实现上述识别方法，该系统中可包括请求方、控制中心以及处理中心。其中，所述处理中心包括但不限于下述五部分：

第一处理中心；

第二处理中心；

第三处理中心；

第四处理中心；

第五处理中心。

当通过非法URL识别系统识别第一URL是否为非法URL时，具体过程如图3所示：

步骤201，请求方将待识别的第一URL发送给控制中心。

步骤202，控制中心将接收到的所述第一URL发送给第一处理中心。

步骤203，第一处理中心接收所述第一URL，且判断第一URL是否存在于本地黑名单中，并根据判断结果，以及预设分数确定规则，确定判断结果对应的第一分数值。

步骤204，第一处理中心将第一分数值发送给控制中心。

步骤205，控制中心接收第一分数值。

若所述第一分数值为0，则执行步骤206；

若所述第一分数值不为0，则执行步骤222。

步骤206，控制中心将第一URL发送给第二处理中心。

步骤207，第二处理中心接收所述第一URL，并判断第一URL是否存在于其他服务器(即，第三方设备)保存的黑名单中，并根据判断结果，以及预设分数确定规则，确定判断结果对应的第二分数值。

具体的，第二处理中心，可以通过调用其他服务器(即，第三方设备)对应的应用程序编程接口(Application Programming Interface，API)，获取存在于其他服务器(即，第三方设备)保存的黑名单，进而判断第一URL是否存在于其他服务器(即，第三方设备)保存的黑名单中。

步骤208，第二处理中心将第二分数值发送给控制中心。

步骤209，控制中心接收第二分数值。

若所述第二分数值为0，则执行步骤210；

若所述第二分数值为不为0，则执行步骤222。

步骤210，控制中心将第一URL发送给第三处理中心。

步骤211，第三处理中心接收第一URL，提取第一URL对应的网页中包括的各第二URL，并确定URL相似度以及第一相似度，根据URL相似度以及第一相似度，以及预设分数确定规则，确定URL相似度以及第一相似度中的最大值对应的第三分数值。

步骤212，第三处理中心将第三分数值发送给控制中心。

步骤213，控制中心接收第三分数值。

步骤214，控制中心将第一URL发送给第四处理中心。

步骤215，第四处理中心接收第一URL，提取第一URL对应的网页中包括的文本信息，确定文本性相似度，并根据预设分数确定规则，确定出文本相似度对应的第四分数值。

步骤216，第四处理中心将第四分数值发送给控制中心。

步骤217，控制中心接收第四分数值。

步骤218，控制中心将第一URL发送给第五处理中心。

步骤219，第五处理中心接收第一URL，提取第一URL对应的网页中包括的图像信息以及视频信息，分别确定图像相似度以及视频相似度，并根据预设分数确定规则，确定出图像相似度以及视频相似度中的最大值对应的第五分数值。

步骤220，第五处理中心将第五分数值发送给控制中心。

步骤221，控制中心接收第五分数值。

步骤222，控制中心根据接收到的所有分数值，识别第一URL是否为非法URL。

步骤223，控制中心将通过执行步骤222得到的识别结果保存在控制中心中的数据库中，并展示识别结果。

步骤224，若第一URL不存在于黑名单中，按设定时间间隔，运用步骤215～步骤221重复对保存在控制中心中的数据库中第一URL进行识别。若连续N次将第一URL识别为非法URL，将所述第一URL添加到所述黑名单中。

在本申请实施例中，可通过一种识别非法统一资源标识符URL的装置，来实现本申请实施例中提供的识别非法URL的方法。

如图4所示，为本申请实施例提供的一种识别非法统一资源标识符URL的装置的结构示意图，主要包括下述装置：

第一确定模块31，用于确定待识别的第一URL。

提取模块32，用于当所述第一URL不在预设的黑名单中时，提取所述第一URL对应的网页中的内容，其中，所述内容包括所述第一URL对应的网页中的各第二URL、文本信息、图像信息、视频信息中的至少一种。

第二确定模块33，用于确定所述第一URL与已知的非法URL的第一相似度，以及所述内容与已知的非法内容的第二相似度。

识别模块34，用于根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL。

在一种实施方式中，所述第二相似度包括：URL相似度、文本相似度、图像相似度、视频相似度中的至少一种。

第二确定模块33，包括：

URL确定子模块，用于确定第二URL与已知的非法URL的URL相似度；

文本确定子模块，用于确定文本信息与预设的非法词库中各关键词的文本相似度；

图像确定子模块，用于确定图像信息与预设的非法图库中各图像的图像相似度；

视频确定子模块，用于确定视频信息中各帧图像与所述非法图库中各图像的视频相似度。

在一种实施方式中，第二确定模块33，用于：

将所述第一URL拆分成各第一字符串；

针对每个已知的非法URL，将该非法URL拆分成各非法字符串，比较各第一字符串与各非法字符串是否相同，并根据比较结果，生成所述第一URL对应的向量以及该非法URL对应的向量，根据所述第一URL对应的向量以及该非法URL对应的向量确定所述第一URL与该非法URL的相似度；

根据确定的所述第一URL与每个非法URL的相似度，将最大相似度确定为所述第一URL与已知的非法URL的第一相似度。

URL确定子模块，用于：

针对每个第二URL，将该第二URL拆分成各第二字符串，针对每个已知的非法URL，将该非法URL拆分成各非法字符串，比较各第二字符串与各非法字符串是否相同，并根据比较结果，生成该第二URL对应的向量以及该非法URL对应的向量，根据该第二URL对应的向量以及该非法URL对应的向量确定该第二URL与该非法URL的相似度，根据确定的该第二URL与每个非法URL的相似度，确定最大相似度；

根据针对每个第二URL确定的最大相似度，将各最大相似度中的最大值确定为URL相似度。

在一种实施方式中，文本确定子模块，用于：

对所述文本信息进行分词处理，获取所述文本信息中的每一个词；

比较获取到的所述文本信息中的每个词与所述预设的非法词库中各关键词是否相同；

根据比较结果，生成所述文本信息对应的向量以及所述预设的非法词库对应的向量；

根据所述文本信息对应的向量以及所述非法词库对应的向量，确定所述文本相似度。

在一种实施方式中，图像确定子模块，用于：

对各图像信息与预设的非法图库中各图像进行聚类；

根据每个图像信息所在的类中包含的所述非法图库中的图像的数量，确定所述图像相似度。

视频确定子模块，用于：

针对每一个视频信息，获取该视频信息中各帧图像；

对获取到的该视频信息中各帧图像与预设的非法图库中各图像进行聚类；

根据所述各帧图像所在的类中包含的所述非法图库中各图像的数量，确定该视频信息中各帧图像与预设的非法图库中各图像的相似度；

根据针对每一个视频信息确定的相似度，将最大相似度确定为视频相似度。

在一种实施方式中，识别模块34，具体用于：

根据所述第一相似度与所述URL相似度，将所述第一相似度与所述URL相似度中的最大值确定为第三相似度；

根据所述图像相似度与所述视频相似度，将所述图像相似度与所述视频相似度中的最大值确定为第四相似度；

根据所述第三相似度、所述文本相似度以及所述第四相似度，以及预设分数确定规则，分别确定出所述第三相似度、所述文本相似度以及所述第四相似度对应的分数值；

当所述分数值之和不小于预设分数阈值时，识别所述第一URL是否为非法URL；

当所述分数值之和大于预设分数阈值时，识别所述第一URL是否为非法URL。

其中，第一确定模块31与识别模块34，相当于非法URL识别系统中的控制中心。提取模块32与第二确定模块33，相当于非法URL识别系统中的处理中心。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种识别非法统一资源标识符URL的方法，其特征在于，所述方法包括：

确定待识别的第一URL；

根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL；

当所述第二相似度包括各第二URL相似度、文本相似度、图像相似度以及视频相似度时，所述根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL，具体包括：

根据所述第一相似度与所述各第二URL相似度，将所述第一相似度与所述各第二URL相似度中的最大值确定为第三相似度；

当所述分数值之和不小于预设分数阈值时，识别所述第一URL为非法URL；

当所述分数值之和小于预设分数阈值时，识别所述第一URL不为非法URL。

2.如权利要求1所述的方法，其特征在于，所述第二相似度包括：URL相似度、文本相似度、图像相似度、视频相似度中的至少一种；

确定所述内容与已知的非法内容的第二相似度，具体包括：

确定各第二URL与已知的非法URL的URL相似度；和/或

确定文本信息与预设的非法词库中各关键词的文本相似度；和/或

确定图像信息与预设的非法图库中各图像的图像相似度；和/或

确定视频信息中各帧图像与所述非法图库中各图像的视频相似度。

3.如权利要求2所述的方法，其特征在于，

确定所述第一URL与已知的非法URL的第一相似度，具体包括：

将所述第一URL拆分成各第一字符串；

根据确定的所述第一URL与每个非法URL的相似度，将最大相似度确定为所述第一URL与已知的非法URL的第一相似度；

确定各第二URL与已知的非法URL的URL相似度，具体包括：

4.如权利要求2所述的方法，其特征在于，确定文本信息与预设的非法词库中各关键词的文本相似度，具体包括：

对所述文本信息进行分词处理，获取所述文本信息中的每个词；

5.如权利要求2所述的方法，其特征在于，

确定图像信息与预设的非法图库中各图像的图像相似度，具体包括：

对各图像信息与预设的非法图库中各图像进行聚类；

根据每个图像信息所在的类中包含的所述非法图库中的图像的数量，确定所述图像相似度；

确定视频信息中各帧图像与所述非法图库中各图像的视频相似度，具体包括：

针对每一个视频信息，获取该视频信息中各帧图像；

6.一种识别非法统一资源标识符URL的装置，其特征在于，所述装置包括：

第一确定模块，用于确定待识别的第一URL；

识别模块，用于当所述第二相似度包括各第二URL相似度、文本相似度、图像相似度以及视频相似度时，根据所述第一相似度和第二相似度，识别所述第一URL是否为非法URL，具体包括：根据所述第一相似度与所述各第二URL相似度，将所述第一相似度与所述各第二URL相似度中的最大值确定为第三相似度；

7.如权利要求6所述的装置，其特征在于，所述第二相似度包括：URL相似度、文本相似度、图像相似度、视频相似度中的至少一种；

第二确定模块，包括：

8.如权利要求7所述的装置，其特征在于，

第二确定模块，用于：

将所述第一URL拆分成各第一字符串；

URL确定子模块，用于：

9.如权利要求7所述的装置，其特征在于，文本确定子模块，用于：

10.如权利要求7所述的装置，其特征在于，

图像确定子模块，用于：

对各图像信息与预设的非法图库中各图像进行聚类；

视频确定子模块，用于：

针对每一个视频信息，获取该视频信息中各帧图像；