CN107862039A

CN107862039A - 网页数据获取方法、系统和数据匹配推送方法

Info

Publication number: CN107862039A
Application number: CN201711078635.3A
Authority: CN
Inventors: 杨晓明; 刘业政; 赵国祥; 刘小茵; 贺菲菲; 李尧; 钱洋; 李玲菲; 姜元春; 孙见山; 孙春华
Original assignee: Guangzhou Ceprei Certification Center Services Co Ltd; Hefei University of Technology; Fifth Electronics Research Institute of Ministry of Industry and Information Technology
Current assignee: Guangzhou Ceprei Certification Center Services Co Ltd; Hefei University of Technology; Fifth Electronics Research Institute of Ministry of Industry and Information Technology
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-03-30
Anticipated expiration: 2037-11-06
Also published as: CN107862039B

Abstract

本发明涉及一种网页数据获取方法及系统、数据匹配推送方法、计算机存储介质及设备，其中网页数据获取方法包括：将目标网页的网址与参考网址进行比较，确定所述网址的类型；根据所述网址的类型，确定网页搜索策略；根据所述网页搜索策略采集所述目标网页的网页数据。上述方案通过将目标网页的网址与预设参考网址进行比较，确定网址的类型，根据网址的类型确定网页搜索策略，通过采取该网页搜索策略对目标网页进行网页数据采集，从而提高了网页数据获取的效率。

Description

网页数据获取方法、系统和数据匹配推送方法

技术领域

本发明涉及网络信息技术领域，特别是涉及一种网页数据获取方法、系统和数据匹配推送方法。

背景技术

随着互联网的迅速发展，各种网络数据呈现爆炸式增长，如何快速地从海量的网络信息中获取网页数据成为了一大难题。

传统的网页数据获取方法是通过网络爬虫技术来实现的，即从一个或者若干个初始的URL(Uniform Resource Locator，统一资源定位符)开始，通过设定好的爬行顺序或方法获取网页中的信息，再从网页中提取新的URL地址作为下一跳的地址，或者在原地址的基础上进行适当的地址拼接形成新的下一跳分析地址，直至满足系统设定的停止条件。

然而，传统的网页数据获取方法存在数据获取效率低的技术问题。

发明内容

基于此，有必要针对上述数据获取效率低的技术问题，提供一种网页数据获取方法、系统和数据匹配推送方法。

一种网页数据获取方法，包括以下步骤：

将目标网页的网址与参考网址进行比较，确定所述网址的类型；

根据所述网址的类型，确定网页搜索策略；

根据所述网页搜索策略采集所述目标网页的网页数据。

上述网页数据获取方法中的网址的类型包括：企业官方网址和政府网址；若确定所述网址的类型为企业官方网址，则确定网页搜索策略为广度优先策略；若确定所述网址的类型为政府网址，则确定网页搜索策略为深度优先策略和广度优先策略，针对不同网址的类型采用不同的网页搜索策略，提高了网页数据获取的准确性与效率。

所述网址的类型还包括：社交网址，若确定所述网址的类型为社交网址，则根据所述目标网页的网页数据，获取发布所述网页数据所属话题的用户的类型，进而根据所述用户的类型，确定网页搜索策略，针对社交网址，根据其中发布网页数据所属话题的用户的类型来确定网页搜索策略，提高了网页数据获取的准确性与效率。其中，所述用户的类型包括：官方用户和个人用户；若确定所述用户的类型为官方用户，则确定网页搜索策略为深度优先策略；若确定所述用户的类型为个人用户，则确定网页搜索策略为深度优先策略和广度优先策略。针对官方或个人用户的用户类型不同，采用不同网页搜索策略，进一步提高网页数据获取的准确性与效率。

上述网页数据获取方法，在确定所述网址的类型为社交网址之后，还包括根据所述目标网页的网页数据，获取目前所述网页数据所属话题的生命周期，根据所述生命周期，确定网页搜索策略，根据所述网页搜索策略采集所述目标网页的网页数据，针对网页数据所属话题目前所属生命周期阶段采取不同网页搜索策略，提高了网页数据获取的准确性与效率。

在根据所述网页搜索策略采集所述目标网页的网页数据的步骤之后，还包括根据所述目标网页的网页数据，获取所述网页数据所属第一话题的第一参与用户的等级，若所述第一参与用户的等级满足预设等级要求，则采集所述第一参与用户在所述第一话题发表的全部数据，从而提高网页数据获取的效率与完整性。

上述网页数据获取方法，在根据所述网页搜索策略采集所述目标网页的网页数据的步骤之后，还包括根据所述目标网页中的网页数据，获取所述网页数据所属第二话题的第二参与用户的话题参与次数，若所述第二参与用户的话题参与次数超过参与次数阈值，则对所述第二参与用户在所述第二话题的生命周期内发布的数据进行采集，从而提高了网页数据获取的全面性。

在则对所述第二参与用户在所述第二话题的生命周期内发布的数据进行采集的步骤之后，还包括根据所述第二参与用户在所述第二话题的生命周期内发布的数据，获取所述发布的数据所属的第三话题和所述第三话题的第三参与用户，获取所述第三参与用户的等级，若所述第三参与用户的等级满足预设等级要求，则采集所述第三参与用户在所述第三话题发表的全部数据，提高了网页数据获取的全面性。

一种网页数据获取系统，包括：

比较模块，用于将目标网页的网址与参考网址进行比较，确定所述网址的类型；

策略模块，用于根据所述网址的类型，确定网页搜索策略；

采集模块，用于根据所述网页搜索策略采集所述目标网页的网页数据。

一种基于网页数据获取方法的数据匹配推送方法，包括以下步骤：

对所述网页数据进行预处理，所述预处理包括分词、去停用词、提取关键词和主题分析中的至少一种；

根据接收的检索请求，对所述预处理后的网页数据进行匹配，获取与检索请求相似度最高的网页数据；

将所述与检索请求相似度最高的网页数据推送至发送检索请求的端口。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现网页数据获取方法。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现网页数据获取方法。

上述网页数据获取方法及系统、数据匹配推送方法、计算机存储介质及设备，通过将目标网页的网址与预设参考网址进行比较，确定网址的类型，根据网址的类型确定网页搜索策略，通过采取该网页搜索策略对目标网页进行网页数据采集，从而提高了网页数据获取的效率。

附图说明

图1为一个实施例的网页数据获取方法的流程图；

图2为一个实施例的网页的网络结点结构示意图；

图3为一个实施例的网页数据获取系统的结构图；

图4为一个实施例的数据匹配推送方法的流程图；

图5为一个实施例的基于检测认证服务领域的数据匹配推送方法流程图；

图6为一个实施例的Jsoup中的Nodes包的类层次图；

图7为一个实施例的通过对浏览器地址和Json返回地址两种地址的解析来获取网页数据的流程示意图；

图8为一个实施例的数据获取程序模块示意图；

图9为一个实施例的主体建模模型拓扑结构图；

图10为一个实施例的主体建模有向图概率图表示的示意图。

具体实施方式

下面结合具体的实施例及附图对本发明的技术方案进行详细的描述，以使其更加清楚。

如图1所示，本发明提供一种网页数据获取方法，可包括以下步骤：

S10，将目标网页的网址与参考网址进行比较，确定所述网址的类型；

S20，根据所述网址的类型，确定网页搜索策略；

S30，根据所述网页搜索策略采集所述目标网页的网页数据。

在实际应用中，网页数据可为检测认证服务行业中企业的相关数据，为了便于描述，下面均以网页数据是检测认证服务行业中企业的相关数据为例进行说明。

本方法中，网页搜索策略可包括广度优先策略、深度优先策略、广度优先策略和深度优先策略结合的策略，网页搜索策略为深度优先策略和广度优先策略结合的策略可包括先采用深度优先策略再采用广度优先策略、先采用广度优先策略再采用深度优先策略或同时采用深度优先策略和广度优先策略。以下所述确定网页搜索策略为深度优先策略和广度优先策略均指深度优先策略和广度优先策略结合的策略。

如图2所示，为一个实施例的网页的网络结点结构。

其中，第一层结点为A，第二层结点包括B、C和D，第三层结点包括E、F、G、H和I，若确定网页搜索策略为广度优先策略，广度优先策略的遍历处理路径为A->B->C->D->E->F->G->H->I，若确定网页搜索策略为深度优先策略，深度优先策略的遍历处理路径为A->B->E->F->C->G->D->H->I。

在步骤S20根据所述网址的类型，确定网页搜索策略之前，可将网址类型与网页搜索策略预先进行绑定，通过将目标网页的网址与预设的参考网址进行比较，确定网址的类型，并进一步确定网页搜索策略。其中步骤S20可包括在预先建立的数据库中为参考网址添加网址标签，根据目标网页的网址与参考网址进行比较，确定与目标网页的网址相似度最高的参考网址，读取该参考网址的网址标签，根据读取到的网址标签确定目标网页的网址类型。其中，网址的类型可包括企业官方网址、社交网址和政府网址，根据不同的网址类型，采取不同的网页搜索策略进行网页数据采集，提高了网页数据获取的效率和准确性。

在一个实施例中，将获取的目标网页的网址与参考网址进行比较之后，确定与目标网页的网址最相似的参考网址，读取该参考网址的网址标签，获取目标网页的网址的类型为检测认证企业的官方网址，该网址是检测认证企业最直接的展示平台，包括企业介绍、业务范围和合作企业信息，根据预先绑定确定网页搜索策略为广度优先策略，因此，采用广度优先策略对该企业的官方网址进行网页数据的采集，从而提高了获取网页数据的效率。其中，网页数据可为该企业的业务信息。

在一个实施例中，将获取的目标网页的网址与预设参考网址进行比较之后，确定与目标网页的网址最相似的参考网址，读取该参考网址的网址标签，获取目标网页的网址的类型为政府网址，该网址中包含了政府关于检测认证企业公开的重要信息和主要业务，根据预先绑定确定网页搜索策略深度优先策略和广度优先策略，因此，采用深度优先策略和广度优先策略对该网页进行网页数据的采集，从而全面的获取网址中企业的数据，提高了获取网页数据的效率。

其中，在将所述网址与预设参考网址进行比较之后，确定所述网址的类型为社交网址，即检测认证服务行业相关的社交网址，可包括微博、论坛和贴吧，可根据网页的网页数据，获取发布该网页数据所属话题的用户，并获取该用户的类型，根据用户的类型，确定网页搜索策略并根据网页搜索策略对网页进行网页数据采集，从而提高了网页数据获取的效率。其中，用户的类型可包括官方用户和个人用户，可通过获取发布网页数据所属话题的用户ID，将用户ID与预设ID进行比较，确定所述用户的类型。

在一个实施例中，确定目标网页的网址的类型为检测认证服务行业相关的社交网址，并且根据网页中的检测认证企业的相关数据，获取到发布该数据所属话题的用户的类型为官方用户，对于官方用户发布的话题，其他参与话题的用户均活跃在话题的消息评论之下，因此，根据预先绑定确定采取深度优先策略对该网页进行网页数据的采集，提高了网页数据获取的效率。

在一个实施例中，确定目标网页的网址的类型为检测认证服务行业相关的社交网址，并且根据网页中的检测认证企业的相关数据，获取到发布该数据所属话题的用户的类型为个人用户，因此，根据预先绑定确定采取深度优先策略和广度优先策略对该网页进行网页数据的采集，提高了网页数据获取的效率。

本网页数据获取方法，在确定所述网址的类型为社交网址之后，还可包括根据目标网页的网页数据，获取目前所述网页数据所属话题的生命周期，根据生命周期，确定网页搜索策略，根据网页搜索策略采集目标网页的网页数据，针对网页数据所属话题目前所属生命周期阶段采取不同网页搜索策略，提高了网页数据获取的准确性与效率。其中，话题的生命周期可为话题从产生到消弭的整个生命周期，可包括话题的初始期、关注期、裂变期、高涨期和消弭期。

获取目前网页数据所属话题的生命周期时，可根据网页数据获取网页数据所属话题的起始时间，并通过设置时间阈值，由话题的时间开始计时，当计时超过第一时间阈值且小于第二时间阈值时，则为关注期；采取深度优先策略进行数据采集，否则为初始期，采取深度优先策略进行数据采集；当计时超过第二时间阈值且小于第三时间阈值时，则为裂变期，采取深度优先策略和广度优先策略进行数据采集；当计时超过第三时间阈值且小于第四时间阈值时，则为高涨期，采取深度优先策略和广度优先策略进行数据采集；当计时超过第四时间阈值时，则为消弭期，采取广度优先策略进行数据采集。同样地，可根据网页数据获取网页数据所属话题的起始时间，并通过设置不同的参与用户或评论阈值，确定目前网页数据所属话题的生命周期。其中，不同阈值可根据实际情况进行设置。

在一个实施例中，确定检测认证的企业相关数据所属话题起始时间为2017年9月1日，当前时间为2017年9月2日，计时未超过第一时间阈值30天，处于初始期，从而采取深度优先策略进行数据采集，从而提高数据获取的效率。

在步骤S30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括根据目标网页的网页数据，获取网页数据所属第一话题的第一参与用户的等级，若第一参与用户的等级满足预设等级要求，则采集第一参与用户在所述第一话题发表的全部数据，否则对第一参与用户在此话题发表的部分数据进行采集，从而提高网页数据获取的效率与完整性，其中第一参与用户的等级可包括普通用户和VIP(Very Important Person，贵宾)用户，可通过获取第一参与用户的ID，根据第一参与用户的ID获取第一参与用户的等级，其中用户的ID与用户的等级预先进行绑定并存储至数据库中。不同的网址可根据不同用户ID生成相应的等级，预设等级要求可根据网址为用户生成的等级进行设定，具体设定等级要求可根据实际情况而定。

在一个实施例中，根据网址中对于检测认证企业相关的数据，获取该数据所属第一话题的第一参与用户，其中获取到的第一参与用户的等级为VIP用户，满足预设等级要求，则采集该VIP用户在此话题下发表的全部数据。

在一个实施例中，根据网址中对于检测认证企业相关的数据，获取该数据所属第一话题的第一参与用户，其中获取到的第一参与用户的等级为普通用户，不满足预设等级要求，则对该普通用户在该话题发表的部分数据进行采集，其中此部分数据可为关注量高的数据，具体地，可为点赞量或转发量超过阈值的评论内容，阈值可根据实际情况确定。

在步骤S30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括根据目标网页中的网页数据，获取网页数据所属第二话题的第二参与用户的话题参与次数，若第二参与用户的话题参与次数超过参与次数阈值，则对第二参与用户在第二话题的生命周期内发布的数据进行采集，从而提高了网页数据获取的全面性，其中，第二参与用户针对同一话题的参与次数可根据该参与用户在该同一话题的评论次数、点赞次数和转发次数进行确定，话题参与次数阈值可设定为20次、30次或50次，具体可根据实际情况而定。

在一个实施例中，根据获取的检测认证相关的网址中的企业相关数据，获取该数据所属第二话题的第二参与用户的话题参与次数，该参与次数为50次，超过了预设的40次话题参与次数阈值，因此，对该参与用户在此话题整个生命周期内发布的所有数据进行采集。

在对第二参与用户在第二话题的生命周期内发布的数据进行采集的之后，还可包括根据第二参与用户在第二话题的生命周期内发布的数据，获取所述发布的数据所属的第三话题和所述第三话题的第三参与用户，获取所述第三参与用户的等级；若第三参与用户的等级满足预设等级要求，则采集第三参与用户在第三话题发表的全部数据，从而提高了网页数据获取的全面性。

在一个实施例中，根据获取的检测认证相关的网址中的企业相关数据，其中该数据所属话题为第二话题，其中的话题参与次数超过了预设的50此话题参与次数阈值的参与用户为第二参与用户，根据第二参与用户在第二话题的生命周期内发布的数据，获取该发布数据所属的话题为第三话题，获取第三话题的参与用户为第三参与用户，并采集用户等级为VIP用户的第三参与用户在第三话题下发表的全部数据。

本网页数据获取方法，在步骤S30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括设置数据获取异常的应对策略，进而提高数据获取的安全性和效率。具体地，数据获取异常的应对策略可包括时间机制设置策略、动态账号切换策略、动态话题切换策略、动态用户切换策略、动态页数据获取策略和多端获取策略。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，若获取的数据量超过预设的500条记录数据，则休眠5分钟，通过设置定量数据的随机时间休眠机制，提高数据获取安全性和效率。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，若采集时长达到半小时或获取的数据量达到10000条记录数据，则随机切换至另一个账号进行采集，通过切换至不同账号进行数据采集，提高数据获取的安全性和效率。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，若采集时长达到半小时或获取的数据量达到5000条记录数据，则切换网页数据所属的话题，进入另一个话题进行数据采集。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，采取动态跳页采集数据的策略，不按照常规的递加翻页的方法，而是在有限页数内进行随机跳页。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，在域名不影响的情况下，从PC(personal computer个人计算机)端和移动端两种路径进行数据获取。

上述网页数据获取方法，通过将目标网页的网址与预设参考网址进行比较，确定网址的类型，根据网址的类型确定网页搜索策略，通过采取该网页搜索策略对目标网页进行网页数据采集，从而提高了网页数据获取的效率。

如图3所示，本发明还提供一种网页数据获取系统，可包括：

比较模块10，用于将目标网页的网址与参考网址进行比较，确定所述网址的类型；

策略模块20，用于根据所述网址的类型，确定网页搜索策略；

采集模块30，用于根据所述网页搜索策略采集所述目标网页的网页数据。

在策略模块20根据所述网址的类型，确定网页搜索策略之前，可将网址类型与网页搜索策略预先进行绑定，通过将目标网页的网址与预设的参考网址进行比较，确定网址的类型，并进一步确定网页搜索策略。其中策略模块20可在预先建立的数据库中为参考网址添加网址标签，根据目标网页的网址与参考网址进行比较，确定与目标网页的网址相似度最高的参考网址，读取该参考网址的网址标签，根据读取到的网址标签确定目标网页的网址类型。其中，网址的类型可包括企业官方网址、社交网址和政府网址，根据不同的网址类型，采取不同的网页搜索策略进行网页数据采集，提高了网页数据获取的效率和准确性。

在一个实施例中，比较模块10将获取的目标网页的网址与参考网址进行比较之后，确定与目标网页的网址最相似的参考网址，读取该参考网址的网址标签，获取目标网页的网址的类型为检测认证企业的官方网址，该网址是检测认证企业最直接的展示平台，包括企业介绍、业务范围和合作企业信息，根据预先绑定确定网页搜索策略为广度优先策略，因此，采用广度优先策略对该企业的官方网址进行网页数据的采集，从而提高了获取网页数据的效率。其中，网页数据可为该企业的业务信息。

在一个实施例中，比较模块10将获取的目标网页的网址与预设参考网址进行比较之后，确定与目标网页的网址最相似的参考网址，读取该参考网址的网址标签，获取目标网页的网址的类型为政府网址，该网址中包含了政府关于检测认证企业公开的重要信息和主要业务，根据预先绑定确定网页搜索策略深度优先策略和广度优先策略，因此，采用深度优先策略和广度优先策略对该网页进行网页数据的采集，从而全面的获取网址中企业的数据，提高了获取网页数据的效率。

其中，比较模块10在将所述网址与预设参考网址进行比较之后，确定所述网址的类型为社交网址，即检测认证服务行业相关的社交网址，可包括微博、论坛和贴吧，可由策略模块20根据网页的网页数据，获取发布该网页数据所属话题的用户，并获取该用户的类型，根据用户的类型，确定网页搜索策略并根据网页搜索策略对网页进行网页数据采集，从而提高了网页数据获取的效率。其中，用户的类型可包括官方用户和个人用户，可通过获取发布网页数据所属话题的用户ID，将用户ID与预设ID进行比较，确定所述用户的类型。

在一个实施例中，比较模块10确定目标网页的网址的类型为检测认证服务行业相关的社交网址，并且由策略模块20根据网页中的检测认证企业的相关数据，获取到发布该数据所属话题的用户的类型为官方用户，对于官方用户发布的话题，其他参与话题的用户均活跃在话题的消息评论之下，因此，根据预先绑定确定采取深度优先策略对该网页进行网页数据的采集，提高了网页数据获取的效率。

在一个实施例中，比较模块10确定目标网页的网址的类型为检测认证服务行业相关的社交网址，并且由策略模块20根据网页中的检测认证企业的相关数据，获取到发布该数据所属话题的用户的类型为个人用户，因此，根据预先绑定确定采取深度优先策略和广度优先策略对该网页进行网页数据的采集，提高了网页数据获取的效率。

本网页数据获取系统，在确定所述网址的类型为社交网址之后，策略模块20还可根据目标网页的网页数据，获取目前所述网页数据所属话题的生命周期，根据生命周期，确定网页搜索策略，根据网页搜索策略采集目标网页的网页数据，针对网页数据所属话题目前所属生命周期阶段采取不同网页搜索策略，提高了网页数据获取的准确性与效率。其中，话题的生命周期可为话题从产生到消弭的整个生命周期，可包括话题的初始期、关注期、裂变期、高涨期和消弭期。

策略模块20获取目前网页数据所属话题的生命周期时，可根据网页数据获取网页数据所属话题的起始时间，并通过设置时间阈值，由话题的时间开始计时，当计时超过第一时间阈值且小于第二时间阈值时，则为关注期；采取深度优先策略进行数据采集，否则为初始期，采取深度优先策略进行数据采集；当计时超过第二时间阈值且小于第三时间阈值时，则为裂变期，采取深度优先策略和广度优先策略进行数据采集；当计时超过第三时间阈值且小于第四时间阈值时，则为高涨期，采取深度优先策略和广度优先策略进行数据采集；当计时超过第四时间阈值时，则为消弭期，采取广度优先策略进行数据采集。同样地，可根据网页数据获取网页数据所属话题的起始时间，并通过设置不同的参与用户或评论阈值，确定目前网页数据所属话题的生命周期。其中，不同阈值可根据实际情况进行设置。

在一个实施例中，策略模块20确定检测认证的企业相关数据所属话题起始时间为2017年9月1日，当前时间为2017年9月2日，计时未超过第一时间阈值30天，处于初始期，从而采取深度优先策略进行数据采集，从而提高数据获取的效率。

在采集模块30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括根据目标网页的网页数据，获取网页数据所属第一话题的第一参与用户的等级，若第一参与用户的等级满足预设等级要求，则采集第一参与用户在所述第一话题发表的全部数据，否则对第一参与用户在此话题发表的部分数据进行采集，从而提高网页数据获取的效率与完整性，其中第一参与用户的等级可包括普通用户和VIP(Very Important Person，贵宾)用户，可通过获取第一参与用户的ID，根据第一参与用户的ID获取第一参与用户的等级，其中用户的ID与用户的等级预先进行绑定并存储至数据库中。不同的网址可根据不同用户ID生成相应的等级，预设等级要求可根据网址为用户生成的等级进行设定，具体设定等级要求可根据实际情况而定。

在一个实施例中，采集模块30根据网址中对于检测认证企业相关的数据，获取该数据所属第一话题的第一参与用户，其中获取到的第一参与用户的等级为VIP用户，满足预设等级要求，则采集该VIP用户在此话题下发表的全部数据。

在一个实施例中，采集模块30根据网址中对于检测认证企业相关的数据，获取该数据所属第一话题的第一参与用户，其中获取到的第一参与用户的等级为普通用户，不满足预设等级要求，则对该普通用户在该话题发表的部分数据进行采集，其中此部分数据可为关注量高的数据，具体地，可为点赞量或转发量超过阈值的评论内容，阈值可根据实际情况确定。

在采集模块30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括根据目标网页中的网页数据，获取网页数据所属第二话题的第二参与用户的话题参与次数，若第二参与用户的话题参与次数超过参与次数阈值，则对第二参与用户在第二话题的生命周期内发布的数据进行采集，从而提高了网页数据获取的全面性，其中，第二参与用户针对同一话题的参与次数可根据该参与用户在该同一话题的评论次数、点赞次数和转发次数进行确定，话题参与次数阈值可设定为20次、30次或50次，具体可根据实际情况而定。

在一个实施例中，采集模块30根据获取的检测认证相关的网址中的企业相关数据，获取该数据所属第二话题的第二参与用户的话题参与次数，该参与次数为50次，超过了预设的40次话题参与次数阈值，因此，对该参与用户在此话题整个生命周期内发布的所有数据进行采集。

在一个实施例中，采集模块30根据获取的检测认证相关的网址中的企业相关数据，其中该数据所属话题为第二话题，其中的话题参与次数超过了预设的50此话题参与次数阈值的参与用户为第二参与用户，根据第二参与用户在第二话题的生命周期内发布的数据，获取该发布数据所属的话题为第三话题，获取第三话题的参与用户为第三参与用户，并采集用户等级为VIP用户的第三参与用户在第三话题下发表的全部数据。

本网页数据获取系统，在采集模块30根据所述网页搜索策略采集所述目标网页的网页数据之后，还可包括设置数据获取异常的应对策略，进而提高数据获取的安全性和效率。具体地，数据获取异常的应对策略可包括时间机制设置策略、动态账号切换策略、动态话题切换策略、动态用户切换策略、动态页数据获取策略和多端获取策略。

在一个实施例中，在通过确定的网页搜索策略对目标网页进行网页数据采集的过程中，在域名不影响的情况下，从PC端和移动端两种路径进行数据获取。

上述网页数据获取系统，通过将目标网页的网址与预设参考网址进行比较，确定网址的类型，根据网址的类型确定网页搜索策略，通过采取该网页搜索策略对目标网页进行网页数据采集，从而提高了网页数据获取的效率。

本发明的网页数据获取系统与本发明的网页数据获取方法一一对应，在上述网页数据获取方法的实施例阐述的技术特征及其有益效果均适用于网页数据获取系统的实施例中，特此声明。

如图4所示，本发明还提供一种基于网页数据获取方法的数据匹配推送方法，可包括以下步骤：

S20，根据所述网址的类型，确定网页搜索策略；

S30，根据所述网页搜索策略采集所述目标网页的网页数据。

S40，对所述网页数据进行预处理，所述预处理包括分词、去停用词、提取关键词和主题分析中的至少一种；

S50，根据接收的检索请求，对所述预处理后的网页数据进行匹配，获取与检索请求相似度最高的网页数据；

S60，将所述与检索请求相似度最高的网页数据推送至发送检索请求的端口。

如图5所示为一个实施例的基于检测认证服务领域的数据匹配推送方法流程图，为获取检测认证服务行业中企业的相关数据，其中网页数据获取过程包括将获取的与该企业相关的网页的网址与预设参考网址进行比较，确定该网址的类型，并根据该网址的类型确定网页搜索策略对该网页进行网页数据采集，即采集该企业的相关数据，在网页数据获取之后，将获取的检测认证企业相关数据存储至数据库中，形成企业文档，并在此基础上构建检测认证服务领域的领域本体库，之后对该本体库中的数据进行预处理操作，包括进行分词、去停用词、关键词提取和主题分析，并根据接收的检索请求，与预处理后的企业相关数据进行匹配，获取与检索请求相似度最高的企业相关数据，并将该相似度相关的企业数据推送至发送检索请求的客户端口，从而实现了网页数据获取与数据匹配推送，提高获取企业数据的效率和准确性，挖掘企业的显需求信息和隐需求信息，提高了构建检测认证服务领域的本体库的完整性，有效解决在检测认证行业中需求方和服务方之间信息不对称的问题。

其中，在步骤S30根据所述网页搜索策略采集所述目标网页的网页数据时，需要确定数据获取技术，可包括采用Jsoup的HTMLParse(Hyper Text Markup Language，超文本标记语言)技术和正则表达式的匹配技术进行数据获取，也可采取分布式并行自动获取技术。

如图6所示为一个实施例的Jsoup中的Nodes包的类层次图，Jsoup作为Java的HTML网页解析器，提供了很多有用的API(Application Programming Interface，应用程序编程接口)，所以可直接通过URL地址和文件加载Document对象，也可以直接解析HTML字符串或者body片段，还可以通过CSS(Cascading Style Sheets，层叠样式表)、DOM(DocumentObject Model，文档对象模型)或JQuery操作方法等进行直接的数据(HTML的文本、属性、元素)读取和操作。使用其解析网页的优势在于能快速的解析HTML代码，并且能在解析的过程中保证结果的较为准确性。如图6所示。其中，Node是在解析HTML过程中，文档、标签、属性、文本和注释都被看成结点，这样就会被构造成一个节点树。Element一般包括标记名称、属性和子节点等。在一个Element中，可以进行数据提取和结点遍历等操作，Jsoup因可使用与JQuery类似的选择器检索和查找元素而更加优越，它还可以从元素集合中直接抽取文本、属性和HTML内容，并且Jsoup仅仅需要一行代码就可以实现目的，而其他的HTML解析器也许需要多行代码才能实现同样的功能。选择器通过使用Element.select(String selector)和Elements.select(String selector)两种方法可以查找匹配目标元素，Select方法可作用于Document、Element或Elements，并支持CSS或JQuery语法，最终返回元素列表(Elements)。如表1所示为一个实施例的典型选择器语法：

正则表达式是通过利用一些事先已经定义好的特殊符号对字符串进行逻辑过滤的操作，其目的主要是通过简单的字符匹配代替复杂的简化字符串的代码程序，从而实现字符串处理的便捷性和高效性。如表2所示为一个实施例的数据获取技术中用到的正则表达式及其功能：

使用正则表达式，可以从逻辑匹配的结果中获取我们目标的数据形式，在本文的研究中主要用到了正则表达式的以下四种操作功能：①匹配：“String matches”方法，用规则匹配整个字符串，若有一处不符合规则，则匹配结束或跳过本循环，进入下一阶段；②切割：如果出现叠词，则可用“(.)\\1+”实现按照任意多的叠词切割；如果想要按照空格切割，则可使用split("\\s")实现按照空格切割；③替换：“String replace All()”可将重叠的字符替换成单个字符或字符串，其中$表示获取组的元素；④获取：获取字符串集合中符合正则表达式匹配规则的子字符串。通过给定的URL地址获取到的HTML代码中，目标字符串或数据可能在某一标签之下，而且数据自身还可能是有很多无用的干扰字符组合而成，因此，在获取目标字段时正确使用规范的正则表达式进行替换、切割、匹配和获取，实现目标字段的准确获得。

在一个实施例中，根据确定的网页搜索策略，采用分布式并行自动获取技术对目标网页中的网页数据进行采集，使用运行在Linux上的Hadoop系统，在计算机集群中实现并行操作大数据的分布式计算或存储框架，从而实现了实时数据获取，减少人工操作程序的麻烦，大大提升了数据获取效率。

网络数据获取技术获取网页数据的流程，主要是通过对浏览器地址和Json返回地址两种地址的解析来获取网页数据，如图7所示为一个实施例的通过对浏览器地址和Json返回地址两种地址的解析来获取网页数据的流程示意图。针对静态的网页上的数据的获取，首先对某一URL下的页面进行解析形成树，然后对树中网页数据进行遍历操作，从而获取到网页数据。然而，当遇到网页结构较为复杂时，可能一个网页下涉及到多个模块的数据，有的是通过一些特殊的标签进行数据组织的，并且不同区块下数据的定位地址也不一样，这样的话，同一个页面下的页面解析需要对该网页中数据的多个地址进行分别解析和相同标签的遍历操作，最后将获取的数据再存储在同一个数据库中就完成了数据的获取。

针对图7所示的数据获取流程，在实现过程中主要包括平台模拟登录、数据抓取、数据存储三个模块，如图8所示为一个实施例的数据获取程序模块示意图，具体地，包括：(1)平台模拟登陆模块：这部分主要分为账号密码加密模块和合法地址获取模块，分别作用为加密登陆账号和密码以及获取合法地址。在模拟用户的登陆中，需要先将事先传输的用户名和密码分别进行64位编码和RSA算法编码，然后再将编码的结果发送给服务器，服务器审核验证通过后便返回一串字符；而获取合法地址部分将分析返回的一串字符，目的是得到URL合法地址；(2)信息获取模块：这部分主要分为地址拼接模块、HTML解析代码获取模块和数据抓取模块三部分。在成功登陆的基础上，有的需要对中文数据进行MD5编码后，将其与已知的地址进行拼接，有的则直接将目标ID直接与地址进行拼接，从而得到目标URL地址；然后HTML解析代码获取模块将会从目标URL地址中针对网页数据所在标签范围获取HTML代码；最后数据抓取模块分析HTML并从中抽取选定字段的网页数据；(3)数据存储模块：本模块主要是将信息获取模块所得到的数据列表进行循环存入MySQL数据库或者txt文本中，以便用户对所获取的数据进行相关利用和处理。

在上述数据获取过程中，可使用Java作为开发工具，并以Eclipse作为开发环境，以MySQL作为数据存储的数据库，融合数据获取策略和技术，设计实现各个数据获取模块的代码，最终可以通过实时程序运行获得企业数据，提高了数据获取的效率。

其中，将网页数据存储至数据库，形成企业文档，在步骤S40中对网页数据进行预处理，预处理可包括分词、去停用词、提取关键词和主题分析中的至少一种。

在一个实施例中，对获取的检测认证企业相关的数据形成的企业文档进行分词处理，将企业文档加入到中国科学院软件ICTCLAS中，对企业文档进行分词，提高获取数据的准确度。

在一个实施例中，对获取的检测认证企业相关的数据形成的企业文档进行去停用词处理，采用词频统计及排序的方法，获取排序后上5％的词汇作为高频词，获取排序下5％的词汇作为低频词，同时也将各类标点符号、特殊字符添加到停用词列表中，采用字符串匹配算法，将企业文档中的词汇与停用词词典中的词汇进行匹配，去除企业文档中匹配到的字符，提高获取的数据的精准程度。

在一个实施例中，对获取的检测认证企业相关的数据形成的企业文档进行提取关键词的操作，采用TF-IDF方法，提取能表征该企业的相关数据关键词，提高数据获取的准确性。如表3所示为一个实施例的TF-IDF方法提取的检测认证企业的部分关键词：

从关键词获取企业所属行业、经营产品和行业地位等相关数据，从而可获取企业的检测认证需求，根据企业相关信息实现检测认证服务商的匹配推送。

在一个实施例中，对获取的检测认证企业相关的数据形成的企业文档进行主题分析的操作，可采用主题建模方法，如图9所示为一个实施例的主体建模模型拓扑结构图，其中C1为文档层、C2为主题层、C3为单词层，图10所示为一个实施例的主体建模有向图概率图表示的示意图，本主体建模方法包括对主题的推断，利用公式(1)为每个单词更新新的主题。

包括对文档的词分布的推断，可利用公式(2)计算主题的词分布φ。利用式(3)计算文档的主题分布θ。

其中，z_i表示第i个单词对应的主题，k表示主题编号，表示排除第i个单词，其余单词对应的主题，表示词向量，表示排除第i个单词后，文档m中主题k对应的单词数目，α和β为狄雷克雷分布的超参数，表示排除第i个单词，主题k生成的单词t数目，V表示整个语料的长度，表示主题生成单词t的数目，表示文档m中主题k生成的总数，K表示主题数目。

如表4所示为一个实施例的主题建模获取的主题词汇：

根据其中所示的主体词汇，体现了检测认证企业的需求信息，可根据本数据匹配推送方法，向企业推送相关检测认证机构，实现数据匹配推送。

针对检测认证机构服务和企业或个人的需求，可根据获取的检测认证企业相关的数据，构建与检测认证领域相关的领域本体，如表5为一个实施例的检测认证机构的领域本体库的部分词汇，其中包括电子、家电、玩具和软件行业：

在本数据匹配推送方法中，获取网页数据并进行处理之后，可与接收的检索请求进行匹配并推送相似度最高的网页数据至发送检索请求的端口，从而提高数据匹配推送的效率和准确性。其中，可采用基于关键词检索的字符串匹配算法进行匹配，在检测认证领域之中，可搭建提供检测认证的服务机构与需求检测认证的企业的匹配。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意实施例中的网页数据获取的方法。该计算机可读存储介质所执行的方法与上述实施例中的网页数据获取的方法相同，此处不再赘述。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意实施例中的网页数据获取的方法。该计算机设备中的处理器所执行的方法与上述实施例中的网页数据获取的方法相同，此处不再赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网页数据获取方法，其特征在于，包括以下步骤：

根据所述网址的类型，确定网页搜索策略；

根据所述网页搜索策略采集所述目标网页的网页数据。

2.根据权利要求1所述的网页数据获取方法，其特征在于，所述网址的类型包括：企业官方网址和政府网址；

所述根据所述网址的类型，确定网页搜索策略的步骤包括：

若所述网址的类型为企业官方网址，则确定网页搜索策略为广度优先策略；

若所述网址的类型为政府网址，则确定网页搜索策略为深度优先策略和广度优先策略。

3.根据权利要求1所述的网页数据获取方法，其特征在于，所述网址的类型还包括：社交网址；

所述确定所述网址的类型的步骤之后，还包括：

若所述网址的类型为社交网址，则根据所述目标网页的网页数据，获取发布所述网页数据所属话题的用户的类型；

根据所述用户的类型，确定网页搜索策略。

4.根据权利要求3所述的网页数据获取方法，其特征在于，所述用户的类型包括：官方用户和个人用户；

所述根据所述用户的类型，确定网页搜索策略的步骤包括：

若所述用户的类型为官方用户，则确定网页搜索策略为深度优先策略；

若所述用户的类型为个人用户，则确定网页搜索策略为深度优先策略和广度优先策略。

5.根据权利要求1所述的网页数据获取方法，其特征在于，所述网址的类型还包括：社交网址；

所述确定所述网址的类型的步骤之后，还包括：

若所述网址的类型为社交网址，则根据所述目标网页的网页数据，获取目前所述网页数据所属话题的生命周期；

根据所述生命周期，确定网页搜索策略；

根据所述网页搜索策略采集所述目标网页的网页数据。

6.根据权利要求1所述的网页数据获取方法，其特征在于，在根据所述网页搜索策略采集所述目标网页的网页数据的步骤之后，还包括：

根据所述目标网页的网页数据，获取所述网页数据所属第一话题的第一参与用户的等级；

若所述第一参与用户的等级满足预设等级要求，则采集所述第一参与用户在所述第一话题下发表的全部数据。

7.根据权利要求1至6任意一项所述的网页数据获取方法，其特征在于，在根据所述网页搜索策略采集所述目标网页的网页数据的步骤之后，还包括：

根据所述目标网页的网页数据，获取所述网页数据所属第二话题的第二参与用户的话题参与次数；

若所述第二参与用户的话题参与次数超过参与次数阈值，则对所述第二参与用户在所述第二话题的生命周期内发布的数据进行采集。

8.根据权利要求7所述的网页数据获取方法，其特征在于，在则对所述第二参与用户在所述第二话题的生命周期内发布的数据进行采集的步骤之后，还包括：

根据所述第二参与用户在所述第二话题的生命周期内发布的数据，获取所述发布的数据所属的第三话题和所述第三话题的第三参与用户；

获取所述第三参与用户的等级，若所述第三参与用户的等级满足预设等级要求，则采集所述第三参与用户在所述第三话题下发表的全部数据。

9.一种网页数据获取系统，其特征在于，包括：

策略模块，用于根据所述网址的类型，确定网页搜索策略；

10.一种基于权利要求1至8任意一项所述的网页数据获取方法的数据匹配推送方法，其特征在于，包括以下步骤：