CN112528117B

CN112528117B - 一种政务网站一级目录的识别方法及相关装置

Info

Publication number: CN112528117B
Application number: CN202011445031.XA
Authority: CN
Inventors: 莫凡; 范渊; 俞辰悦; 刘博�
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-03-14
Anticipated expiration: 2040-12-11
Also published as: CN112528117A

Abstract

本申请公开了一种政务网站一级目录的识别方法，包括构建一级目录导航关键词库；获取网页源代码；将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。该识别方法能够有效识别到政务网站的一级目录。本申请还公开了一种政务网站一级目录的识别装置、设备及计算机可读存储介质，均具有上述技术效果。

Description

一种政务网站一级目录的识别方法及相关装置

技术领域

本申请涉及网站技术领域，特别涉及一种政务网站一级目录的识别方法；还涉及一种政务网站一级目录的识别装置、设备以及计算机可读存储介质。

背景技术

对于正规的商业网站，目前可以根据域名及URL的层关系识别出哪些是一级目录。然而对于政务网站，由于多数政务网站的域名不正规，因此无法采用类似商业网站识别一级目录的方法来识别政务网站的一级目录。如果可以准确识别出政务网站的一级目录，就可以统计政务网站不同网页类别下的访问次数，统计不同政务网站类似网页类别的访问比例等，对指导政务网站的建设与宣传具有重大意义。因此，提供一种能够有效识别政务网站的一级目录的方案已成为本领域技术人员亟待解决的技术问题。

发明内容

本申请的目的是提供一种政务网站一级目录的识别方法，能够有效识别到政务网站的一级目录。本申请的另一个目的是提供一种政务网站一级目录的识别装置、设备以及计算机可读存储介质，均具有上述技术效果。

为解决上述技术问题，本申请提供了一种政务网站一级目录的识别方法，包括：

构建一级目录导航关键词库；

获取网页源代码；

将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；

在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

可选的，所述获取网页源代码包括：

根据网站域名，通过Python中requests库的get方法获取网页源代码。

可选的，所述获取网页源代码包括：

通过所述Python中的Selenium模块模拟操作浏览器行为，获取网页源代码。

可选的，还包括：

通过所述Python中的所述Selenium模块模拟打开浏览器并获取网页截图；

通过Tesseract识别所述网页截图中的字符并将所述字符转换为相应的字符串；

将转换得到的字符串与所述一级目录导航关键词库中的关键词进行匹配；

通过所述Tesseract确定与所述字符串匹配的所述关键词在网页中的位置；

通过所述Python中的所述Selenium模块模拟点击所述关键词在网页上的所述位置，以打开新的网页；

将所打开的新的网页的地址栏中的地址作为一级目录地址。

可选的，还包括：

将得到的其他的一级目录地址相关的关键词添加到所述一级目录导航关键词库。

为解决上述技术问题，本申请还提供了一种政务网站一级目录的识别装置，包括：

词库构建模块，用于构建一级目录导航关键词库；

代码获取模块，用于获取网页源代码；

第一匹配模块，用于将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；

搜索模块，用于在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

可选的，还包括：

截图获取模块，用于通过所述Python中的所述Selenium模块模拟打开浏览器并获取网页截图；

字符识别模块，用于通过Tesseract识别所述网页截图中的字符并将所述字符转换为相应的字符串；

第二匹配模块，用于将转换得到的字符串与所述一级目录导航关键词库中的关键词进行匹配；

第一确定模块，用于通过所述Tesseract确定与所述字符串匹配的所述关键词在网页中的位置；

点击模块，用于通过所述Python中的所述Selenium模块模拟点击所述关键词在网页上的所述位置，以打开新的网页；

第二确定模块，用于将所打开的新的网页的地址栏中的地址作为一级目录地址。

可选的，还包括：

添加模块，用于将得到的其他的一级目录地址相关的关键词添加到所述一级目录导航关键词库。

为解决上述技术问题，本申请还提供了一种政务网站一级目录的识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述的政务网站一级目录的识别方法的步骤。

为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的政务网站一级目录的识别方法的步骤。

本申请所提供的政务网站一级目录的识别方法，包括：构建一级目录导航关键词库；获取网页源代码；将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

可见，区别于根据域名及URL的层关系去识别一级目录的方案，本申请所提供的政务网站一级目录的识别方法，从网页源代码入手，将网页源代码中的字符串与一级目录的关键词进行匹配，得到一级目录地址，并在此基础上，利用已识别到一级目录地址再进一步去识别其他的一级目录地址，能够有效识别到政务网站的一级目录。

本申请所提供的政务网站一级目录的识别装置、设备以及计算机可读存储介质均具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种政务网站一级目录的识别方法的流程示意图；

图2为本申请实施例所提供的一种政务网站一级目录的识别装置的示意图；

图3为本申请实施例所提供的一种政务网站一级目录的识别设备的示意图。

具体实施方式

本申请的核心是提供一种政务网站一级目录的识别方法，能够有效识别到政务网站的一级目录。本申请的另一个核心是提供一种政务网站一级目录的识别装置、设备以及计算机可读存储介质，均具有上述技术效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种政务网站一级目录的识别方法的流程示意图，参考图1所示，该方法包括：

S101：构建一级目录导航关键词库；

具体的，尽管政务网站后台实现各异，但是政务网站的网页样式通常比较有规律。如“首页”、“网站首页”、“政务”、“信息公开”、“联系我们”等关键词大概率会出现在政务网站的一级目录导航栏。为此，可以根据小样本取样调研，以“首页”、“网站首页”、“政务”等作为一级目录识别的关键字，构建包括如“首页”、“网站首页”、“政务”等的一级目录导航关键词库。

S102：获取网页源代码；

具体的，本步骤旨在获取网页的源代码，以进一步将网页源代码中的字符串与一级目录导航关键词库中的关键词进行匹配。

其中，在一种具体的实施方式中，获取网页源代码的方式为：根据网站域名，通过Python中requests库的get方法获取网页源代码。

具体而言，本实施例中获取网页源代码的方式是根据网站域名，使用Python中requests库的get方法去获取网页源代码。例如，根据网页域名***.gov.cn，使用Python中requests库的get方法获取网页源代码。

在另一种具体的实施方式中，获取网页源代码的方式为通过Python中的Selenium模块模拟操作浏览器行为，获取网页源代码。

具体而言，一些网站设置有安全防护、防爬功能，采用上述实施例的获取网页源代码的方式，根据如***.gov.cn等网页域名去爬取网页源代码，较多时候会访问失败，或者被跳转到一个不相关的网页，由此无法获取到所需的网页源代码。为此，本实施例采取如下方式获取网页源代码，即使用Python中的Selenium模块模拟操作浏览器的行为，从而获取网页源代码。对于Selenium模块模拟操作浏览器的行为而获取到网页源代码的具体细节，本申请在此不做赘述，参考现有的相关内容即可。

S103：将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；

具体的，在获取到网页源代码的基础上，进一步将网页源代码中的字符串与一级目录导航关键词库中的关键词进行匹配，如果网页源代码中的字符串与一级目录导航关键词库中的关键词匹配成功，那么就可以得到关键词对应的跳转链接，进而将关键词对应的跳转链接作为一级目录地址，由此实现识别到一个或一些一级目录。

S104：在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

具体的，在执行步骤S101至S103识别到一个或一些一级目录的基础上，进一步，使用beautiful soup包在已经识别到的一级目录地址所在层附近不断的搜索父节点下与已识别到的一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

例如，一级目录导航关键词库中包含关键词“首页”，经过执行步骤S102与S103得到了关键词“首页”对应的跳转链接，并以此跳转链接作为一级目录地址，得到一个与“首页”相关的一级目录地址。在此基础上，进一步使用beautiful soup包在已经识别到的一级目录地址所在层附近不断的搜索父节点下与已识别到的一级目录地址具有相同特征的地址，得到与“联系我们”相关的一级目录地址。

进一步，在上述实施例的基础上，还包括：通过所述Python中的所述Selenium模块模拟打开浏览器并获取网页截图；通过Tesseract识别所述网页截图中的字符并将所述字符转换为相应的字符串；将转换得到的字符串与所述一级目录导航关键词库中的关键词进行匹配；通过所述Tesseract确定与所述字符串匹配的所述关键词在网页中的位置；通过所述Python中的所述Selenium模块模拟点击所述关键词在网页上的所述位置，以打开新的网页；将所打开的新的网页的地址栏中的地址作为一级目录地址。

对于使用文本展示的政务网站，可以通过执行上述步骤而识别到网站的一级目录，而对于使用图片展示的政务网站，则无法采用如上所示的关键字与网页源代码中的字符串匹配的方式识别一级目录。因此，针对政务网站使用图片展示的情况下，本实施例提供了如下方式来识别一级目录。

具体而言，使用Python中的Selenium模块模拟打开浏览器并获取网页截图，通常可以截取网页最上方500像素左右高度的图片。进一步，把网页截图输入Tesseract开源OCR库，利用Tesseract开源OCR库识别网页截图中的字符，并将字符转换为相应的字符串。将转换得到的字符串与一级目录导航关键词库中的关键词进行匹配。匹配成功后，再通过Tesseract确定匹配成功的关键词在网页中的位置，并进一步通过Python中的Selenium模块模拟点击该关键词在网页上的位置，以打开新的网页；最后将所打开的新的网页的地址栏中的地址作为一级目录地址，实现一级目录的识别。

以“首页”为例，关键词“首页”与转换得到的字符串匹配成功，通过Python中的Selenium模块模拟点击“首页”在网页上的位置，以打开新的网页；最后将所打开的新的网页的地址栏中的地址作为一级目录地址。

采用上述方式识别到一个或一些一级目录地址后，进一步同样可执行步骤S104，在已识别到的一级目录地址所在层搜索与已识别到的一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

进一步，在上述实施例的基础上，还包括：将得到的其他的一级目录地址相关的关键词添加到所述一级目录导航关键词库。

具体的，在已识别到的一级目录地址所在层搜索与已识别到的一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址后，进一步可将新识别到的一级目录地址相关的关键词添加到一级目录导航关键词库中，以便丰富一级目录导航关键词库中的关键词，利于后续进行一级目录识别。

综上所述，本申请所提供的政务网站一级目录的识别方法，包括：构建一级目录导航关键词库；获取网页源代码；将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。区别于根据域名及URL的层关系去识别一级目录的方案，本申请所提供的政务网站一级目录的识别方法，从网页源代码入手，将网页源代码中的字符串与一级目录的关键词进行匹配，得到一级目录地址，并在此基础上，利用已识别到一级目录地址再进一步去识别其他的一级目录地址，能够有效识别到政务网站的一级目录。

本申请还提供了一种政务网站一级目录的识别装置，下文描述的该装置可以与上文描述的方法相互对应参照。请参考图2，图2为本申请实施例所提供的一种内存温度过热报警的装置的示意图，结合图2所示，该装置包括：

词库构建模块10，用于构建一级目录导航关键词库；

代码获取模块20，用于获取网页源代码；

第一匹配模块30，用于将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；

搜索模块40，用于在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

在上述实施例的基础上，代码获取模块20具体用于根据网站域名，通过Python中requests库的get方法获取网页源代码。

在上述实施例的基础上，代码获取模块20通过所述Python中的Selenium模块模拟操作浏览器行为，获取网页源代码。

在上述实施例的基础上，可选的，还包括：

本申请还提供了一种政务网站一级目录的识别设备，参考图3所示，该设备包括存储器1和处理器2。

存储器1，用于存储计算机程序；

处理器2，用于执行计算机程序实现如下的步骤：

构建一级目录导航关键词库；获取网页源代码；将所述网页源代码中的字符串与所述一级目录导航关键词库中的关键词进行匹配，并将匹配成功的所述关键词对应的跳转链接作为一级目录地址；在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址。

对于本申请所提供的设备的介绍请参照上述方法实施例，本申请在此不做赘述。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下的步骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的政务网站一级目录的识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围。

Claims

1.一种政务网站一级目录的识别方法，其特征在于，包括：

构建一级目录导航关键词库；所述一级目录导航关键词库中的关键词是出现在政务网站的一级目录导航栏的词汇；

获取网页源代码；

在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址；

还包括：

通过Python中的Selenium模块模拟打开浏览器并获取网页截图；

将所打开的新的网页的地址栏中的地址作为一级目录地址。

2.根据权利要求1所述的识别方法，其特征在于，所述获取网页源代码包括：

3.根据权利要求1所述的识别方法，其特征在于，所述获取网页源代码包括：

4.根据权利要求1所述的识别方法，其特征在于，还包括：

5.一种政务网站一级目录的识别装置，其特征在于，包括：

词库构建模块，用于构建一级目录导航关键词库；所述一级目录导航关键词库中的关键词是出现在政务网站的一级目录导航栏的词汇；

代码获取模块，用于获取网页源代码；

搜索模块，用于在所述一级目录地址所在层搜索与所述一级目录地址具有相同特征的地址，得到政务网站中其他的一级目录地址；

还包括：

截图获取模块，用于通过Python中的Selenium模块模拟打开浏览器并获取网页截图；

6.根据权利要求5所述的识别装置，其特征在于，还包括：

7.一种政务网站一级目录的识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的政务网站一级目录的识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的政务网站一级目录的识别方法的步骤。