CN113242223B

CN113242223B - 一种网址检测方法及装置

Info

Publication number: CN113242223B
Application number: CN202110482243.3A
Authority: CN
Inventors: 刘厚泽
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-07-01
Anticipated expiration: 2041-04-30
Also published as: CN113242223A

Abstract

本发明公开了一种网址检测方法及装置，所述方法包括：应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址；判断所述访问网址是否为历史违法网址；若否，则抓取所述访问网址对应网页内的所有页面内容；根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性；根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果；本发明能够对用户进行网页浏览时的每一个网址进行检测，并实时得出结果，从而达到了对用户上网浏览的层层管控，大大的提高了对非法网址的监控力度。

Description

一种网址检测方法及装置

技术领域

本发明属于互联网技术领域，具体涉及一种网址检测方法及装置。

背景技术

随着互联网的快速发展，在当今社会，网上冲浪已成为人们的休闲娱乐项目之一，而网页浏览则是网上冲浪的常用功能；当用户使用原生浏览器进行网页浏览时，如果用户浏览的是非法网址(如钓鱼网站、虚假网站或赌博网站等)，很有可能给用户带来经济损失，因此，需要对用户的浏览网址进行监控。

目前，国家各部门对非法网址的管控效果不好，无法做到精确管控，其主要有如下原因：

(1)非法网址会经常更换网址来躲避打击，从而导致各部门无法实时抓取与判定；(2)违法网址会以广告木马入口方式植入到合法网站的产品上以逃避监管；如非法博彩网站入口的广告条会植入到正常产品展示页面一角，只要产品有合格证工商部门就不会管理，公安部门又短期内发现不了该广告条的出现，而用户只要点击该入口，则会跳转到该博彩网站，从而造成经济损失；因此，如何实现对用户浏览的每个网址进行精确管控，已成为一个亟待解决的问题。

发明内容

本发明的目的是提供一种网址检测方法及装置，以解决现有国家部门无法对用户浏览的每个网址进行精确管控的问题。

为了实现上述目的，本发明采用以下技术方案：

本发明提供了一种网址检测方法，包括：

应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址；

判断所述访问网址是否为历史违法网址；

若否，则抓取所述访问网址对应网页内的所有页面内容；

根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性；

根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果。

基于上述公开的内容，本发明在用户每次进行网页访问时，均会抓取进行网页访问对应的访问网址，从而对每次访问网址进行检测，其过程如下：首先，会判断该访问网址是否为历史违法网址，实质为：该访问网址是否为国家部门提供的违法网址数据库中的网址，若是，可直接向用户发出警告；若否，则说明该访问网址为新出现网址，需要进一步的判断，此时，本发明则会抓取该访问网址对应网页内的所有页面内容(例如，网页内的图像、视频和网页的备案信息等)，并通过页面内容得到该访问网址的页面特征(即得到该访问网址内的文字特征、图像特性以及页面排版特性)；最后，通过页面内容以及页面特征进行综合判断，即可判断出该访问网址是否为违法网址；即相当于通过访问网址内记载的文字内容、图像、视频和页面排版等各方面来综合判断，从而得出检测结果。

通过上述设计，本发明能够对用户进行网页浏览时的每一个网址进行检测，并实时得出结果，从而达到了对用户上网浏览的层层管控，大大的提高了对非法网址的监控力度。

在一个可能的设计中，抓取所述访问网址对应网页内的所有页面内容，包括：

获取所述访问网址的网站备案信息；

访问所述访问网址，以便进入所述访问网址对应的网页页面；

截取所述网页页面的页面图像，其中，所述页面图像包含有完整的所述网页页面；

获取所述网页页面的至少一个链接网址，以及所述网页页面内的至少一个视频内容；

利用所述网站备案信息、所述页面图像、所述至少一个链接网址以及所述至少一个视频内容，组成所述页面内容。

基于上述公开的内容，本发明公开了页面内容包含的具体内容，即包含有网站备案信息(其可判断该访问网址是否在国家部门进行了合法登记)、页面图像(其可为后续文字、图像以及页面排版等特征的识别提供数据基础)、链接网址(其可判断该访问网址是否存在支付窗口和注册窗口等，以便为后续网址检测提供数据基础)以及视频内容(即通过视频中播放的内容来判断该网址是否存在博彩和/或色情等违法内容)；通过上述各方面，即可为后续的网址检测提供全面的检测数据基础。

在一个可能的设计中，根据页面内容，得到所述访问网址的页面特征，包括：

对所述页面图像进行图像识别，得到所述页面图像内的文字识别结果、图像识别结果以及页面排版识别结果；

利用所述文字识别结果、所述图像识别结果以及所述页面排版识别结果，组成所述页面特征。

基于上述公开的内容，本发明公开了页面特征的具体生成过程以及包含的内容，即通过对页面图像进行图像识别，以识别出页面图像中的文字内容、图像内容以及页面排版，其实质为：识别出页面图像中的文字是否存在敏感字(敏感字由用户预设，例如下注和/或转盘等)，图像内容是否为色情图像和/或赌博图像等，以及页面排版是否与已知违法网址相似(例如，与色情网站排版相似)。

通过上述设计，利用页面特征，可进一步的判断出访问网址内的内容是否属于违法内容，为后续的综合检测提供更为全面的检测数据基础。

在一个可能的设计中，根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果，包括：

利用模糊匹配算法，计算所述页面内容以及所述页面特征的的权重，分别得到内容权重以及特征权重；

求和所述内容权重以及所述特征权重，得到所述访问网址的第一权重总和；

根据所述第一权重总和，得出所述访问网址的检测结果，其中，所述第一权重总和小于第一阈值时，所述访问网址为安全网址，所述第一权重总和大于第二阈值时，所述访问网址为违法网址，所述第一权重总和处于所述第一阈值与所述第二阈值之间时，所述访问网址为疑似违法网址，且所述第一阈值小于所述第二阈值。

基于上述公开的内容，本发明公开了检测结果的具体计算过程，即通过模糊匹配算法计算页面内容的权重以及页面特征的权重；然后，将二者相加，即可得到访问网址的第一权重总和；最后，根据第一权重总和的大小，即可得出检测结果；其实质为计算页面内容中各个内容部分的权重值，以及计算页面特征中各个特征的权重值，最后，将所有权重值进行相加，即可得到第一权重总和，以便根据第一权重总和得出检测结果。

在一个可能的设计中，根据所述第一权重总和，得出所述访问网址的检测结果后，所述方法还包括：

判断第一目标网址在第一预设时长内的访问次数是否大于第一预设值，其中，所述第一目标网址为第一权重总和小于所述第一阈值的访问网址；

若是，则重新计算所述第一目标网址的第一权重总和，以便根据重新计算得到的第一权重总和重新得出所述第一目标网址的检测结果。

基于上述公开的内容，本发明在得出检测结果后，针对检测结果的不同，还设置有循环检测步骤，即通过判断第一目标网址在第一预设时长内的访问次数，来决定是否重新计算第一目标网址的第一权重总和；若第一预设时长内的访问次数大于第一预设值，则说明该网址访问过于频繁，需要重新计算，而若重新计算出的第一权重总和大于其检测时得出的第一权重总和，则说明该第一目标网址可能为违法网址，此时，可将该第一目标网址对应的页面内容发送至网络管理中心进行人工认定，并在认定为违法网址后，将该第一目标网址存储至黑名单数据库。

按照预设时间间隔，重新计算第二目标网址的第一权重总和，得到所述第二目标网址的第二权重总和，其中，所述第二目标网址为第一权重总和处于所述第一阈值与所述第二阈值之间的访问网址；

判断所述第二目标网址的第二权重总和是否大于所述第二目标网址的第一权重总和；或

判断所述第二目标网址在第二预设时长内的访问次数是否小于或等于第二预设值；

若是，则将所述第二目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第二目标网址的页面内容确认所述第二目标网址是否为疑似违法网址。

基于上述公开的内容，本发明针对第一权重总和在第一阈值与第二阈值之间的访问网址，在得出检测结果后，也设置有循环检测步骤，即按照前述两个判断条件进行判断，其中，条件一为：若第二目标网址的第二权重总和大于其第一权重总和；条件二为：在第二预设时长内的访问次数是否小于或等于第二预设值，当满足上述两个条件中的任一个，即可进行后续步骤，即将该第二目标网址对应的页面内容发送至网络管理中心进行人工确认，从而确认该第二目标网址是否为疑似违法网址；通过上述设计，不仅可大大的提高检测的精确度，还能对同一网址进行循环检测，提高监控力度。

将第三目标网址存入黑名单数据库中，并将所述第三目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第三目标网址对应的页面内容确认所述第三目标网址是否为违法网址，其中，所述第三目标网址为第一权重总和大于所述第二阈值的访问网址。

基于上述公开的内容，同理，本发明对第一权重总和大于第二阈值的访问网址，可直接存入黑名单数据库中，从而在下一次判断时，直接认定为违法网址；同时，还可将第三目标网址对应的页面内容发送至网络管理中心进行人工确认，从而保证检测的准确性。

在一个可能的设计中，所述方法还包括：

当所述访问网址的第一权重总和处于所述第一阈值与所述第二阈值之间时，向用户终端发送二级警告；以及

当所述访问网址的第一权重总和大于所述第二阈值时，向所述用户终端发送一级警告，其中，所述二级警告包括弹窗警告，所述一级警告包括违法弹窗警告以及网址举报弹窗警告。

基于上述公开的内容，本发明在得出访问网址的检测结果后，可根据检测结果的不同，向用户发出不同程度的警告，从而提醒用户该网址具有风险，谨慎进入，以降低用户被违法网址欺骗的概率；例如，认定为疑似违法网站，可直接在用户终端上进行弹窗警告(内容可以但不限于为：该网站为疑似违法网址，请谨慎进入)；而认定为违法网站，可直接发出违法弹窗警告以及网址举报弹窗警告，向用户表明此网址会被自动举报。

在一个可能的设计中，在根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果后，所述方法还包括：

根据所述页面内容，得到所述页面内容内各个网页版块的所属类型；

根据各个网页版块的所属类型，查找各个网页版块对应的管理中心；

将所述访问网址以及所述页面内容发送至各个网页版块对应的管理中心，以使各个网页版块对应的管理中心根据所述页面内容确定所述访问网址内的各个网页版块是否属于符合预设标准。

基于上述公开的内容，本发明可根据页面内容，得出访问网址内各个版块的所属类型，进而将访问网址发送至各个类型所属管理中心，以便达到各个中心的联合管控，进而进一步的提高对网址的管控力度；例如，第一版块属于赌博(其属于公安部管辖)，第二版块属于色情(其属于公安部管辖)，第三版块属于盗版视频(其属于文化部管辖)；此时，可将网页内容发送至公安部门以及文化部门的管理中心，同时进入两个中心的黑名单数据库中，实现各个中心的联合管控。

第二方面，本发明提供了一种网址检测装置，包括：网址获取单元、网址判断单元、抓取单元、特征生成单元以及检测单元；

所述网址获取单元，用于响应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址；

所述网址判断单元，用途判断所述访问网址是否为历史违法网址；

所述抓取单元，用于在所述网址判断单元判断为否时，抓取所述访问网址对应网页内的所有页面内容；

所述特征生成单元，用于根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性；所述检测单元，用于根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果。

在一个的可能的设计中，所述抓取单元包括：信息获取子单元、访问子单元、图像截取子单元以及内容生成子单元；

所述信息获取子单元，用于获取所述访问网址的网站备案信息；

所述访问子单元，用于访问所述访问网址，以便进入所述访问网址对应的网页页面；

所述图像截取子单元，用于截取所述网页页面的页面图像，其中，所述页面图像包含有完整的所述网页页面；

所述信息获取子单元，还用于获取所述网页页面的至少一个链接网址，以及所述网页页面内的至少一个视频内容；

所述内容生成子单元，用于利用所述网站备案信息、所述页面图像、所述至少一个链接网址以及所述至少一个视频内容，组成所述页面内容。

在一个可能的设计中：

所述特征生成单元，具体用于对所述页面图像进行图像识别，得到所述页面图像内的文字识别结果、图像识别结果以及页面排版识别结果；

所述特征生成单元，还具体用于利用所述文字识别结果、所述图像识别结果以及所述页面排版识别结果，组成所述页面特征。

在一个可能的设计中，所述检测单元包括：权重计算子单元以及检测子单元；

所述权重计算子单元，用于利用模糊匹配算法，计算所述页面内容以及所述页面特征的的权重，分别得到内容权重以及特征权重；

所述权重计算子单元，还用于求和所述内容权重以及所述特征权重，得到所述访问网址的第一权重总和；

所述检测子单元，用于根据所述第一权重总和，得出所述访问网址的检测结果，其中，所述第一权重总和小于第一阈值时，所述访问网址为安全网址，所述第一权重总和大于第二阈值时，所述访问网址为违法网址，所述第一权重总和处于所述第一阈值与所述第二阈值之间时，所述访问网址为疑似违法网址，且所述第一阈值小于所述第二阈值。

在一个可能的设计中，所述装置还包括：第一判断单元；

所述第一判断单元，用于判断第一目标网址在第一预设时长内的访问次数是否大于第一预设值，其中，所述第一目标网址为第一权重总和小于所述第一阈值的访问网址；

所述权重计算子单元，还用于在第一判断单元判断为是时，重新计算所述第一目标网址的第一权重总和，以便根据重新计算得到的第一权重总和重新得出所述第一目标网址的检测结果。

在一个可能的设计中，所述装置还包括：第二判断单元以及发送单元；

所述权重计算子单元，用于按照预设时间间隔，重新计算第二目标网址的第一权重总和，得到所述第二目标网址的第二权重总和，其中，所述第二目标网址为第一权重总和处于所述第一阈值与所述第二阈值之间的访问网址；

所述第二判断单元，用于判断所述第二目标网址的第二权重总和是否大于所述第二目标网址的第一权重总和；或

所述发送单元，用于在所述第二判断单元判断为是时，将所述第二目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第二目标网址的页面内容确认所述第二目标网址是否为疑似违法网址。

在一个可能的设计中，所述装置还包括：存储单元；

所述存储单元，用于将第三目标网址存入黑名单数据库中；

所述发送单元，还用于将所述第三目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第三目标网址对应的页面内容确认所述第三目标网址是否为违法网址，其中，所述第三目标网址为第一权重总和大于所述第二阈值的访问网址。

在一个可能的设计中：

所述发送单元，还用于当所述访问网址的第一权重总和处于所述第一阈值与所述第二阈值之间时，向用户终端发送二级警告；以及

所述发送单元，还用于当所述访问网址的第一权重总和大于所述第二阈值时，向所述用户终端发送一级警告，其中，所述二级警告包括弹窗警告，所述一级警告包括违法弹窗警告以及网址举报弹窗警告。

在一个可能的设计中，所述装置还包括：识别单元以及查找单元；

所述识别单元，用于根据所述页面内容，得到所述页面内容内各个网页版块的所属类型；

所述查找单元，用于根据各个网页版块的所属类型，查找各个网页版块对应的管理中心；

所述发送单元，还用于将所述访问网址以及所述页面内容发送至各个网页版块对应的管理中心，以使各个网页版块对应的管理中心根据所述页面内容确定所述访问网址内的各个网页版块是否属于符合预设标准。

第三方面，本发明本发明提供了一种计算机主设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计的所述网址检测方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意一种可能设计的所述网址检测方法。

第五方面，本发明供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述网址检测方法。

附图说明

图1是本发明提供的网址检测系统的系统架构示意图。

图2是本发明提供的网址检测方法的步骤流程示意图。

图3是本发明提供的弹窗警告的效果示意图。

图4是本发明提供的违法弹窗警告的效果示意图。

图5是本发明提供的网址举报弹窗警告的效果示意图

图6为本发明提供的网址检测装置的结构示意图。

图7为本发明提供的计算机主设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例

如图1所示，为本申请提供一种系统架构，包括检测服务器，其中，检测服务器用于实现检测用户的访问网址，以得出检测结果；在本实施例中，检测服务器部署在用户上网查询上行出口处，并与整个城市城域网、省网和/或全国网的互联网汇聚平台通信连接，以及与DPI(Deep Packet Inspection，深度报文检测)平台通信连接；同时检测服务器还通信连接用户终端以及网络管理中心，以便在得出检测结果后，向用户终端发出警告信息，以及向网络管理中心发送检测结果，实现人工认定，保证检测结果的精确性。

如图2所示，本实施例第一方面所提供的网址检测方法，可在用户每次进行联网操作访问网页时，获取访问网页的访问网址，并对访问网址进行两次检测，一是判断该访问网址是否属于历史违法网址，此检测则是基于已知违法网址数据库进行的；而若其不属于历史违法网址，则会进行二次检测，即抓取该访问网址对应网页的页面内容，并根据页面内容得到该访问网址对应网页的页面特征；最后，即可根据页面内容以及页面特征得出该访问网址的检测结果；通过上述设计，本发明能够对用户进行网页浏览时的每一个网址进行检测，并实时得出结果，从而达到了对用户上网浏览的层层管控，大大的提高了对非法网址的监控力度。

本实施例第一方面所提供的网址检测方法，可以但不限于包括如下步骤S101～S105。

S101.响应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址。

步骤S101则是获取待检测网址的过程，即获取用户进行联网操作所访问的网址。

在本实施例中，举例用户每进行一次网页访问，就会抓取其对应的访问网址，也就是说，本发明会对用户访问的每个网址进行检测，从而达到对用户访问网址的层层检测，保证用户的上网安全。

例如，用户在浏览器中输入www.baidu.com，那么本发明则会对www.baidu.com这一网址进行检测；同理，用户如果在百度浏览器中点击标题进入了网址为www.baiten.cn的网页，那么本发明则会检测www.baiten.cn这一网址，判断其是否为违法网址。

在得到用户进行联网操作的访问网址后，即可进入两次检测过程，即如以下步骤S102～S105所示。

S102.判断所述访问网址是否为历史违法网址。

步骤S102则是第一次检测的过程，即判断访问网址是否为历史违法网址，其实质为：判断访问网址是否属于已知违法网址数据库中的网址；而已知违法网址数据库则是由国家政府部门提供，预先存储至检测服务器中，而在进行第一次检测时，直接将访问网址与检测服务器中的已知违法网址数据库中的网址进行匹配即可。

在本实施例中，为了减少计算量，避免将合法网址进行重复检测，在进行第一次检测时，还可判断访问网址是否为备案网址，即检测访问网址的ICP(Internet ContentProvider，电信与信息服务业务经营)/IP(Internet Protocol Address，互联网协议地址)备案信息是否真实；其实质为：判断访问网址的ICP/IP备案信息是否存在于备案信息库中；若存在，则说明该网址为经过政府部门审查后的合法网址；若否，则说明该网址未经审查。

在本实施例中，举例备案信息库可以但不限于由国家通信部提供。

通过上述设计，访问网址只有不是历史违法网址，以及其ICP/IP备案信息不真实时，才会进行第二次检测，从而即可避免访问网址为合法网址，却由于其不为历史违法网址所导致需要进行第二次检测，进而造成资源浪费的弊端。

在经过步骤S102后，即可进行第二次的检测，以进一步的判断访问网址是否违法，其实现过程可以但不限于如下步骤S103～S105。

S103.若否，则抓取所述访问网址对应网页内的所有页面内容。

步骤S103则是抓取访问网址对应网页内所有页面内容的过程，以便为后续页面特征的提取以及网址检测提供数据基础。

在本实施例中，举例抓取访问网址对应网页内的所有页面内容可以但不限于包括如下步骤S103a～S103e。

S103a.获取所述访问网址的网站备案信息。

步骤S103a则是获取访问网址的网站备案信息，实质为获取访问网址的ICP/IP备案信息，其可以但不限于通过联网国家通信部的备案信息库获取。

S103b.访问所述访问网址，以便进入所述访问网址对应的网页页面。

S103c.截取所述网页页面的页面图像，其中，所述页面图像包含有完整的所述网页页面。

步骤S103b以及步骤S103c则是进入访问网址的网页页面，并对网页页面进行截图，从而得到页面图像的过程，通过页面图像，可为后续页面特征的提取提供数据基础。

在本实施例中，举例页面图像将网页页面全部包含的原因为：可通过一张页面图像对整个网页页面进行全部内容的分析，从而保证分析出网页页面内容的完整性。

S103d.获取所述网页页面的至少一个链接网址，以及所述网页页面内的至少一个视频内容。

步骤S103d则是获取网页页面所关联网址的过程，其实质为：通过获取网页页面的链接网址，从而判断该网页页面上是否存在注册窗口和/或支付窗口等，以便为后续检测提供数据基础。

而获取网页页面内的至少一个视频内容，则是通过查看视频中播放的内容，来判断网页页面中是否包含有违法内容，例如，色情视频和/或赌博视频等等。

在本实施例中，举例获取至少一个链接网址以及至少一个视频内容，可以但不限于使用DNS(Domain name resolution，域名)解析实现。

通过步骤S103d，可进一步的抓取出网页页面内所包含的信息，以便为后续的网址检测提供较为全面的数据基础。

在得到上述页面信息后，即可利用上述信息组成页面内容，如以下步骤S103e所示。

S103e.利用所述网站备案信息、所述页面图像、所述至少一个链接网址以及所述至少一个视频内容，组成所述页面内容。

在得到页面内容后，即可从页面内容中，提取出网页页面的页面特征，以便后续与页面内容一起作为网址检测判断的依据，如以下步骤S104所示。

S104.根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性。

在本实施例中，步骤S104实质为识别出访问网址对应网页(即网页页面)内的文字特性、图像特性以及页面排版特性，以便通过上述特性来进行特性分析，从而作为网址检测的判定依据。

在本实施例中，举例得到页面特征可以但不限于包括如下步骤S104a以及步骤S104b。

S104a.对所述页面图像进行图像识别，得到所述页面图像内的文字识别结果、图像识别结果以及页面排版识别结果。

在本实施例中，从页面内容提取页面特征的实质为：通过对页面图像进行图像识别，从而识别出页面图像中的文字、图像以及页面排版。

即通过得到的文字识别结果，来与敏感文字库进行对比，判断出页面图像中否存在敏感字，以便为后续的网址检测提供判断依据。

在本实施例中，敏感文字库可以但不限于由用户预设至检测服务器中。

在本实施例中，举例通过图像识别识别图像中文字，可以但不限于采用：CRNN神经网络结合CTC解码实现，即识别的架构是：CNN+RNN+CTC，其中，CNN提取图像像素特征,RNN提取图像时序特征，而CTC归纳字符间的连接特性。

同理，通过图像识别结果，即可判断出网页页面内是否存在色情图片、博彩图片、赌球图片和/或假药图片等；当然，其是直接通过图像识别得出；原理为：通过获取训练数据集(其包含有百万甚至千万的图片，即包含了各个图片，例如，色情图片、博彩图片、赌球图片和/或假药图片)，通过输入至神经网络中进行训练，从而得到训练后的神经网络，最终，即可利用训练后的神经网络实现图像识别。

当然，页面排版识别结果则是判断该网页页面与违法网页相似度的过程，其也是通过神经网络实现，原理与上述识别图片一致，只是训练数据集更换为各个违法网址对应的网页页面排版。

在本实施例中，对于图像以及页面排版的识别，可以但不限于采用：基于单个神经网络的目标检测算法(You Only Look Once，YOLO)。

在得出上述三个识别结果后，即可组成网页页面的页面特征，即如以下步骤S104b所示。

S104b.利用所述文字识别结果、所述图像识别结果以及所述页面排版识别结果，组成所述页面特征。

在得到访问网址对应网页的页面特征后，即可进行步骤S105，通过页面内容以及页面特征，来得出访问网址检测结果。

S105.根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果。

步骤S105的原理为：通过访问网址内记载的文字内容、图像、视频和页面排版等各方面来综合判断，从而得出检测结果。

下述详细阐述根据页面内容以及页面特征，来得出检测结果的详细步骤，可以但不限于如下步骤S105a～S105c。

S105a.利用模糊匹配算法，计算所述页面内容以及所述页面特征的的权重，分别得到内容权重以及特征权重。

S105b.求和所述内容权重以及所述特征权重，得到所述访问网址的第一权重总和。

S105c.根据所述第一权重总和，得出所述访问网址的检测结果，其中，所述第一权重总和小于第一阈值时，所述访问网址为安全网址，所述第一权重总和大于第二阈值时，所述访问网址为违法网址，所述第一权重总和处于所述第一阈值与所述第二阈值之间时，所述访问网址为疑似违法网址，且所述第一阈值小于所述第二阈值。

在本实施例中，检测原理则是：利用模糊匹配算法，来计算前述页面内容中各个内容部分的权重值，以及前述页面特征中各个特征权重值，并进行求和，最终将求和得到的权重总和作为判断依据。

下述给出一种模糊匹配算法的计算公式：

内容权重＝(网站备案信息×0.05)+(视频内容×0.2)+(注册页面×0.05)+(支付页面×0.05)+(广告插件×0.1)

特征权重＝(文字识别结果×0.2)+(图像识别结果×0.2)+(页面排版识别结果×0.05)+(新词和/新词组×0.1)

在上述内容权重的计算公式中，若判断出访问网址无网站备案信息或网站备案信息不属于备案信息数据库内的备案信息，则访问网站的网站备案信息这一权项的权重值为0.05，反之权重值则为0。

同理，从访问网址得到的至少一个视频内容中的任一视频内容包含有违反内容，例如，色情视频、赌球视频、盗版视频和/或赌博视频等时，那么访问网站的视频内容这一权重的权重值则为0.2；反之也为0。

若至少一个链接网址中若出现注册页面、支付页面以及广告插件(即进入另一网址)，那么链接网址这一权项的权重值则为0.05+0.05+0.1＝0.2；而若至少一个链接网址中仅存在支付页面、注册页面和广告插件三者中的任一个，则链接网址这一权项的权重值则为对应页面的值(若出现广告插件，权重值则为0.1)；同理，若存在三者中的任意两个，权重值则是任意两个之和；而若上述三个页面均未存在，则权重值为0。

在本实施例中，特征权重计算公式中各个特征部分的权重值的计算与前述内容权重值计算原理一致，于此不多加赘述。

在此要说明的是：新词和/或新词组则是访问网址对应网页中出现在敏感文字库外的词语和/或词，即只要得到的文字识别结果中的词和/或词组不属于敏感文字库，也不属于常用文字库(两个文字库均由用户预设至检测服务器)，那么则可判定为新词和/或新词组，此时，则会得出该项的权重值为0.1。

在本实施例中，举例若得出的页面排版识别结果与违法网页数据库中的某个网页排版相似度大于80％，则可认定页面排版识别结果的权重值为0.05。

在本实施例中，违法网页数据库可以但不限于包括：赌球网页、博彩网页、色情网页和/或盗版视频网页等，其中，违法网页的页面排版均存在同一特征，即字体颜色与大小混乱；而赌球与博彩网站的页面排版一般按照游戏室排列，且排列按照会员等级；色情网页的页面排版是视频与图片下方有中外文混合；而盗版视频网页的网页排版上总有特殊符号汇聚。

在本实施例中，对于图像识别结果则是判断图像是否属于敏感图片库中的图片；在本实施例中，举例敏感图片库可以但不限于包括：色情图片、博彩图片、赌球图片和/或假药图片。

同时，视频内容中的违法内容，可以但不限于包括：色情视频部位、博彩桌面特征、赌球界面特征和/或盗版影视等。

在得出内容权重以及特征权重后，即可将二者相加，得到访问网址的第一权重总和，最后，根据第一权重总和的大小，即可判定出访问网址的最终检测结果。

在本实施例中，举例第一阈值可以但不限于为：0.15；第二阈值可以但不限于为0.3；即第一权重总和小于0.15的访问网址为安全网址；介于0.15至0.3之间的，则为疑似违法网址；而大于0.3的则认定为违法网址。

由此通过前述步骤S101～S105及各个子步骤所详细描述的网址检测方法，本发明能够对用户进行网页浏览时的每一个网址进行检测，并实时得出结果，从而达到了对用户上网浏览的层层管控，大大的提高了对非法网址的监控力度。

另外，本发明在根据访问网址的第一权重总和得出检测结果后，为了实现持续检测，还针对不同检测结果的网址，设置有不同的持续检测步骤，如下所示：

针对第一权重总和小于0.15的访问网址，也就是下述中的第一目标网址，设置有如下步骤S106～S107。

S106.判断第一目标网址在第一预设时长内的访问次数是否大于第一预设值，其中，所述第一目标网址为第一权重总和小于所述第一阈值的访问网址。

S107.若是，则重新计算所述第一目标网址的第一权重总和，以便根据重新计算得到的第一权重总和重新得出所述第一目标网址的检测结果。

步骤S106和步骤S107的原理则为：通过检测第一预设时长内的访问次数是否大于第一预设值，来决定是否重新计算第一目标网址的第一权重总和，即重新计算其内容权重以及特征权重，以便根据重新计算得出的第一权重总和，来得出检测结果。

在本实施例中，举例第一预设时长可以但不限于为：1个小时；而第一预设值可以但不限于为10次，即在得出第一目标网址的检测结果后的1个小时内，判断第一目标网址的访问次数是否大于10次，若大于，则需要重新计算。

同理，针对第一权重总和介于0.15到0.3之间的访问网址，即下述中的第二目标网址，设置有如下步骤S108～S110来实现持续检测。

S108.按照预设时间间隔，重新计算第二目标网址的第一权重总和，得到所述第二目标网址的第二权重总和，其中，所述第二目标网址为第一权重总和处于所述第一阈值与所述第二阈值之间的访问网址。

S109.判断所述第二目标网址的第二权重总和是否大于所述第二目标网址的第一权重总和；或判断所述第二目标网址在第二预设时长内的访问次数是否小于或等于第二预设值。

S110.若是，则将所述第二目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第二目标网址的页面内容确认所述第二目标网址是否为疑似违法网址。

步骤S108～S110的持续检测原理为：按照前述步骤S109中的两个判断条件进行判断，其中，条件一为：若第二目标网址的第二权重总和大于其第一权重总和；条件二为：在第二预设时长内的访问次数是否小于或等于第二预设值，当满足上述条件中的任一个，即可进行后续步骤，即将该第二目标网址对应的页面内容发送至网络管理中心进行人工确认，从而确认该第二目标网址是否为疑似违法网址。

在本实施例中，举例预设时间间隔可以但不限于为1小时，第二预设时长可以但不限于为1天，而第二预设值可以但不限于为10次。

同时，在本实施例中，举例若第二目标网址的第二权重总和大于其第一权重总和的20％，就可视为满足条件一。

在本实施例中，将第二目标网址对应的页面内容发送至网络管理中心可以但不限于采用：发送至网络管理中心指定的邮箱、短信和/或执法设备，以便使网络管理中心的工作人员根据页面内容进行人工判定，以最终判定该第二目标网址最终属于安全网址还是违法网址。

在本实施例中，网络管理中心会向检测服务器反馈人工认定结果，以便使检测服务器更改对第二目标网址的检测结果。

在本实施例中，若通过网络管理中心的工作人员，认定第二目标网址为违法网址(即通过人工确认将疑似违法网址确认为违法网址)，那么检测服务器在接收到网络管理中心回传的认定结果后，会将此第二目标网址存入黑名单数据库中，以便在后续检测到此网址时，直接认定为违法网址；当然，网络管理中心的违法数据库中也会存入此网址。

同理，针对第一权重总和大于0.3的访问网址，即下述的第三目标网址，设置有如下步骤S111进行人工确认。

S111.将第三目标网址存入黑名单数据库中，并将所述第三目标网址对应的页面内容发送至网络管理中心，以使所述网络管理中心的工作人员根据所述第三目标网址对应的页面内容确认所述第三目标网址是否为违法网址，其中，所述第三目标网址为第一权重总和大于所述第二阈值的访问网址。

在本实施例中，若得到访问网址的第一权重总和大于0.3，那么可直接将该访问网址存至黑名单数据库中，以便在后续检测到此网址时，直接认定为违法网址；同时，为了保证检测结果的准确性，此时，也可将第三目标网址对应的页面内容发送至网络管理中心进行人工认定，从而提高检测的准确性。

在本实施例中，若通过网络管理中心的工作人员，认定第三目标网址为安全网址(即通过人工确认将违法网址确认为安全网址)，而检测服务器在接收到网络管理中心回传的认定结果后，会从黑名单数据库中删除该第三目标网址，以避免在后续检测中，对该第三目标网址造成误判。

通过上述针对不同检测结果的循环检测设计，不仅可大大的提高检测的精确度，还能对同一网址进行循环检测，提高监控力度。

在本实施例中，在得出访问网址的检测结果后，还可向用户发送警告信息，以避免用户进入该网址内，从而降低用户损失财产的可能性，其实现步骤可以但不限于包括以下步骤S201。

S201.当所述访问网址的第一权重总和处于所述第一阈值与所述第二阈值之间时，向用户终端发送二级警告；以及当所述访问网址的第一权重总和大于所述第二阈值时，向所述用户终端发送一级警告，其中，所述二级警告包括弹窗警告，所述一级警告包括违法弹窗警告以及网址举报弹窗警告。

在本实施例中，若检测出访问网址为疑似违法网址，此时，检测服务器则会向用户终端发送二级警告，其可以但不限于为弹窗警告，弹窗的内容可以但不限于为：“您浏览的网址为疑似违法网址，请谨慎进入”，其效果示意图如图3所示。

而若检测出访问网址为违法网址，此时，检测服务器则会向用户终端发送一级警告，其可以但不限于为违法弹窗警告，弹窗的内容可以但不限于为：“您即将进入的网址为违法网址，会造成财产以及身份泄露，请注意上网安全，同时，本网址将会在10s后自动举报至网络管理中心，请及时退出”；同时，在10s后，则会弹出网址举报弹窗警告，内容可以但不限于为：“该网址已举报成功”，其效果示意图如图4和图5所示。

通过上述设计，本发明可根据检测结果的不同，向用户发出不同程度的警告，从而提醒用户该网址具有风险，谨慎进入，以降低用户被违法网址欺骗的概率。

另外，本发明在得出检测结果后，还可根据页面内容，得到页面内容内各个网页版块的所属类型，从而得知各个网页版块所属的管理中心(例如，A版块是属于公安部的管理中心管理、B版块是属于文化部的管理中心管理，而C版块属于工信部的管理中心管理)，进而可实现各个管理中心的联合管控，将访问网址实现各部门的互通，从而提高对访问网址内各个版块的监管效果；而其实现过程可以但不限于如以下步骤S301～S303。

S301.根据所述页面内容，得到所述页面内容内各个网页版块的所属类型。

S302.根据各个网页版块的所属类型，查找各个网页版块对应的管理中心。

S303.将所述访问网址以及所述页面内容发送至各个网页版块对应的管理中心，以使各个网页版块对应的管理中心根据所述页面内容确定所述访问网址内的各个网页版块是否属于符合预设标准。

在本实施例中，举例根据页面内容得出各个网页版块的所属类型可以但不限于通过对页面图像进行图像识别获得，即识别出页面图像中各个版块上的文字以及图像，进而通过文字和图像来得出该版块的所属类型。

例如，A版块上识别出的文字为博彩，图像为博彩桌面，那么其属于赌博类型，归属则是公安部门的管理中心；又如，B版块识别出的文字为“传奇游戏”，识别出的图像为“传奇游戏的游戏界面”，那么其所属类型则为游戏类型，归属则是文化部门的管理中心；再如，C版块识别出的文字为：“治疗癌症”，识别出的图像为：“癌症药物包装”，那么其属于药品类型，归属则是市场监督局的管理中心。

当然，在本实施例中，对应的类型与其所属的管理中心，由用户预先预设至检测服务器中。

最后，在得出各个网页版块所属的管理中心后，即可将该访问网址对应的页面内容发送至各管理中心，从而使各管理中心判定对应版块内的内容是否符合预设标准，达到对个网页版块联合管控的目的。

在本实施例中，各管理中心的预设标准，则根据其所管理的范围而定；例如，公安部门管理的范围内包含博彩网站，那么其预设标准则根据国家下发的关于博彩认定的文件为准；其余各个管理中心的预设标准与前述举例原理一致，于此不多加赘述。

通过上述设计，可实现各个中心的联合管控，提高对用户浏览网址的监控力度。

在本实施例中，为了加强对合法网址内的广告木马植入入口的管理，还设置有如下步骤：

S401.获取访问网址的前一级网址。

S402.获取前一级网址对应网页的网站备案信息。

S403.根据网站备案信息得出前一级网址的所属管理端；

S404.向管理端发送预警信息，以通过预警信息告知管理端下属的前一级网址内存在违法广告木马植入入口。

前述步骤的原理则为：通过获取访问网址的入口，即从哪个网址跳转进入的(实质为获取其前一级网址)；然后，根据其网站备案信息得出其所述的管理端(例如使属于哪个企业下辖的网站)；最后，向该管理端发送预警信息，即可使管理端知晓其旗下的网站内出现了违法广告木马植入入口，从而实现合法网址对应网页内违法广告木马植入入口的剔除。

在本实施例中，举例根据访问网址所属类型的管理中心，向管理端下发预警信息；例如，访问网址所属的为博彩网址，那么则由公安部向管理端发送。

由此通过上述设计，本发明可从源头上实现对违法网址的管控，从而达到清洁合法网址内违法广告木马植入的目的，进而大大提高上网的安全性。

综上所述，本发明所提供的网址检测方法及装置，具有如下技术效果：

(1)本发明能够对用户进行网页浏览时的每一个网址进行检测，并实时得出结果，从而达到了对用户上网浏览的层层管控，大大的提高了对非法网址的监控力度。

(2)针对不同检测结果的循环检测设计，不仅可大大的提高检测的精确度，还能对同一网址进行循环检测，提高监控力度。

(3)可根据检测结果的不同，向用户发出不同程度的警告，从而提醒用户该网址具有风险，谨慎进入，以降低用户被违法网址欺骗的概率。

(4)可实现各个中心的联合管控，提高对用户浏览网址的监控力度。

如图6所示，本实施例第二方面提供了一种实现实施例第一方面中所述的网址检测方法方法的硬件装置，网址获取单元、网址判断单元、抓取单元、特征生成单元以及检测单元。

所述网址获取单元，用于响应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址。

所述网址判断单元，用途判断所述访问网址是否为历史违法网址。

所述抓取单元，用于在所述网址判断单元判断为否时，抓取所述访问网址对应网页内的所有页面内容。

所述特征生成单元，用于根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性。

所述检测单元，用于根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果。

在一个的可能的设计中，所述抓取单元包括：信息获取子单元、访问子单元、图像截取子单元以及内容生成子单元。

所述信息获取子单元，用于获取所述访问网址的网站备案信息。

所述访问子单元，用于访问所述访问网址，以便进入所述访问网址对应的网页页面。

所述图像截取子单元，用于截取所述网页页面的页面图像，其中，所述页面图像包含有完整的所述网页页面。

所述信息获取子单元，还用于获取所述网页页面的至少一个链接网址，以及所述网页页面内的至少一个视频内容。

在一个可能的设计中：

所述特征生成单元，具体用于对所述页面图像进行图像识别，得到所述页面图像内的文字识别结果、图像识别结果以及页面排版识别结果。

在一个可能的设计中，所述检测单元包括：权重计算子单元以及检测子单元。

所述权重计算子单元，用于利用模糊匹配算法，计算所述页面内容以及所述页面特征的的权重，分别得到内容权重以及特征权重。

所述权重计算子单元，还用于求和所述内容权重以及所述特征权重，得到所述访问网址的第一权重总和。

在一个可能的设计中，所述装置还包括：第一判断单元。

所述第一判断单元，用于判断第一目标网址在第一预设时长内的访问次数是否大于第一预设值，其中，所述第一目标网址为第一权重总和小于所述第一阈值的访问网址。

在一个可能的设计中，所述装置还包括：第二判断单元以及发送单元。

所述权重计算子单元，用于按照预设时间间隔，重新计算第二目标网址的第一权重总和，得到所述第二目标网址的第二权重总和，其中，所述第二目标网址为第一权重总和处于所述第一阈值与所述第二阈值之间的访问网址。

判断所述第二目标网址在第二预设时长内的访问次数是否小于或等于第二预设值。

在一个可能的设计中，所述装置还包括：存储单元。

所述存储单元，用于将第三目标网址存入黑名单数据库中。

在一个可能的设计中：

在一个可能的设计中，所述装置还包括：识别单元以及查找单元。

所述识别单元，用于根据所述页面内容，得到所述页面内容内各个网页版块的所属类型。

所述查找单元，用于根据各个网页版块的所属类型，查找各个网页版块对应的管理中心。

本实施例提供的硬件装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图7所示，本实施例第三方面提供一种计算机主设备，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的网址检测方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器(random accessmemory，RAM)、只读存储器(Read Only Memory image，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等等；所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction set computer,RSIC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units，NPU)的处理器；所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service，GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议，ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外，所述计算机主设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例提供的计算机主设备的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第四方面提供了一种存储包含有实施例第一方面所述的网址检测方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的网址检测方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(MemoryStick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的计算机可读存储介质的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的网址检测方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网址检测方法，其特征在于，包括：

响应于用户通过联网操作进行网页访问时，获取所述网页访问对应的访问网址；

判断所述访问网址是否为历史违法网址；

若否，则抓取所述访问网址对应网页内的所有页面内容；

根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果；

抓取所述访问网址对应网页内的所有页面内容，包括：

获取所述访问网址的网站备案信息；

2.如权利要求1所述的方法，其特征在于，根据页面内容，得到所述访问网址的页面特征，包括：

3.如权利要求1所述的方法，其特征在于，根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果，包括：

利用模糊匹配算法，计算所述页面内容以及所述页面特征的权重，分别得到内容权重以及特征权重；

4.如权利要求3所述的方法，其特征在于，根据所述第一权重总和，得出所述访问网址的检测结果后，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，根据所述第一权重总和，得出所述访问网址的检测结果后，所述方法还包括：

6.如权利要求3所述的方法，其特征在于，根据所述第一权重总和，得出所述访问网址的检测结果后，所述方法还包括：

7.如权利要求3所述的方法，其特征在于，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，在根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果后，所述方法还包括：

9.一种网址的检测装置，其特征在于，包括：网址获取单元、网址判断单元、抓取单元、特征生成单元以及检测单元；

所述特征生成单元，用于根据所述页面内容，得到所述访问网址的页面特征，其中，所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性；

所述检测单元，用于根据所述页面特征以及所述页面内容，得出所述访问网址的检测结果；

所述抓取单元包括：信息获取子单元、访问子单元、图像截取子单元以及内容生成子单元；