CN110297994A

CN110297994A - 网页数据的采集方法、装置、计算机设备和存储介质

Info

Publication number: CN110297994A
Application number: CN201910476224.2A
Authority: CN
Inventors: 何利军
Original assignee: Beijing Golden Butterfly Management Software Co Ltd
Current assignee: Beijing Golden Butterfly Management Software Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-01

Abstract

本申请涉及一种网页数据的采集方法、装置、计算机设备和存储介质，所述方法包括：获取待采集网页的网页源代码；从所述网页源代码中提取链接地址和对应的页面链接名称；计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度；从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称；将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。本申请提供的方案可以实现在信息源的信息组织方式发生变化时确保网页数据采集的时效性。

Description

网页数据的采集方法、装置、计算机设备和存储介质

技术领域

本发明涉及互联网技术领域，特别是涉及一种网页数据的采集方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的飞速发展，网络数据呈指数形式增长，数据量变得越来越大，在如今的信息时代中，从海量数据中快速准确地获取到有价值的信息显得尤为重要。

在传统的数据采集方案中，主要是结合人工经验的方式从特定网站、频段和栏目等信息源中获取网页数据并分析处理，然后按照一定的数据模型输出结构化的网页数据，从而实现网页数据的采集。然而，当信息源的信息组织方式发生变化时，网页数据的采集方式也随之发生变化，需要适应性地调整网页数据的采集方式，从而会影响网页数据采集的时效性。

发明内容

基于此，有必要针对当信息源的信息组织方式发生变化时导致网页数据采集的时效性低的技术问题，提供一种网页数据的采集方法、装置、计算机设备和存储介质。

一种网页数据的采集方法，所述方法包括：

获取待采集网页的网页源代码；

从所述网页源代码中提取链接地址和对应的页面链接名称；

计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度；

从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称；

将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

在一个实施例中，所述将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据包括：

判断所述目标链接地址是否为末端网页的链接地址；

若是，将所述目标链接名称和所述目标链接地址作为目标采集的网页数据；

若否，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，所述方法还包括：

当所述目标链接地址为末端网页的链接地址、且对应的语义相似度小于所述预设阈值时，则删除所述目标链接地址和对应的目标链接名称；

当所述目标链接地址为非末端网页的链接地址、且对应的语义相似度达到所述预设阈值时，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，所述方法还包括：

确定最大递归次数；

按照所述最大递归次数递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤；

在递归过程中，当得到末端网页所对应的目标链接名称和目标链接地址时，则将所得的目标链接名称和目标链接地址作为目标采集的网页数据；

当递归次数达到所述最大递归次数，若未得到末端网页所对应的目标链接名称和目标链接地址，则停止递归计算。

在一个实施例中，所述获取待采集网页的网页源代码包括：

获取待采集网页的网络地址；

加载所述网络地址，通过加载的网络地址获得待采集网页的网页源代码。

在一个实施例中，所述从所述网页源代码中提取链接地址和对应的页面链接名称包括：

将所述网页源代码中的表征脚本、页头和页尾的源代码部分进行删除；

对经过删除处理后所得的网页源代码进行字符大小写转换；

在经过删除处理后所得的网页源代码中，按照预设标签提取链接地址和对应的页面链接名称；

对所提取到的链接地址和页面链接进行去重处理。

在一个实施例中，所述获取待采集网页的网页源代码之前，还包括：

确定采集任务；

根据所述采集任务配置对应的目标参数；

其中，所述目标参数中包括用于识别末端页面的参数、所述预设语义词典、用于标识页面层次的参数以及用于表示频道和栏目的地址标识中的至少一种。

在一个实施例中，所述方法还包括：

查找所述页面链接名称中是否存在与预设语义词典中各关键词匹配的词；

若查找到与所述预设语义词典中各关键词匹配的词时，则将所述页面链接名称和对应的页面链接名称确定为目标采集的网页数据。

在一个实施例中，所述计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度包括：

从所述页面链接名称提取核心语义词；

获取所述核心语义词的第一词向量；以及，

获取所述预设语义词典中各关键词的第二词向量；

计算所述第一词向量与所述第二词向量之间的余弦相似度；

将所述余弦相似度确定为所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

计算所述页面链接名称转换为所述预设语义词典中各关键词的操作数；

对比所述页面链接名称的长度与所述预设语义词典中各关键词的长度，得到最大长度；

基于所述操作数和所述最大长度，计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

一种网页数据的采集装置，所述装置包括：

源代码获取模块，用于获取待采集网页的网页源代码；

提取模块，用于从所述网页源代码中提取链接地址和对应的页面链接名称；

相似度计算模块，用于计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度；

链接名称选取模块，用于从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称；

网页数据确定模块，用于将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

在一个实施例中，所述网页数据确定模块还用于：判断所述目标链接地址是否为末端网页的链接地址；若是，将所述目标链接名称和所述目标链接地址作为目标采集的网页数据；若否，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，所述装置还包括：删除模块；

所述删除模块，用于当所述目标链接地址为末端网页的链接地址、且对应的语义相似度小于所述预设阈值时，则删除所述目标链接地址和对应的目标链接名称；

所述网页数据确定模块还用于当所述目标链接地址为非末端网页的链接地址、且对应的语义相似度达到所述预设阈值时，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，所述装置还包括：递归处理模块；

所述递归处理模块，用于确定最大递归次数；按照所述最大递归次数递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤；

所述网页数据确定模块还用于在递归过程中，当得到末端网页所对应的目标链接名称和目标链接地址时，则将所得的目标链接名称和目标链接地址作为目标采集的网页数据；

所述递归处理模块还用于当递归次数达到所述最大递归次数，若未得到末端网页所对应的目标链接名称和目标链接地址，则停止递归计算。

在一个实施例中，所述源代码获取模块还用于：获取待采集网页的网络地址；加载所述网络地址，通过加载的网络地址获得待采集网页的网页源代码。

在一个实施例中，所述提取模块还用于：将所述网页源代码中的表征脚本、页头和页尾的源代码部分进行删除；对经过删除处理后所得的网页源代码进行字符大小写转换；在经过删除处理后所得的网页源代码中，按照预设标签提取链接地址和对应的页面链接名称；对所提取到的链接地址和页面链接进行去重处理。

在一个实施例中，所述装置还包括：参数配置模块；

所述参数配置模块，用于在所述获取待采集网页的网页源代码之前，确定采集任务；根据所述采集任务配置对应的目标参数；

在一个实施例中，所述装置还包括：查找模块；

所述查找模块，用于查找所述页面链接名称中是否存在与预设语义词典中各关键词匹配的词；

所述网页数据确定模块还用于若查找到与所述预设语义词典中各关键词匹配的词时，则将所述页面链接名称和对应的页面链接名称确定为目标采集的网页数据。

在一个实施例中，所述相似度计算模块还用于：从所述页面链接名称提取核心语义词；获取所述核心语义词的第一词向量；以及，获取所述预设语义词典中各关键词的第二词向量；计算所述第一词向量与所述第二词向量之间的余弦相似度；将所述余弦相似度确定为所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

在一个实施例中，所述相似度计算模块还用于：计算所述页面链接名称转换为所述预设语义词典中各关键词的操作数；对比所述页面链接名称的长度与所述预设语义词典中各关键词的长度，得到最大长度；基于所述操作数和所述最大长度，计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述网页数据的采集方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述网页数据的采集方法的步骤。

上述网页数据的采集方法、装置、计算机设备和存储介质，通过网页源代码中提取链接地址和对应的页面链接名称，然后计算页面链接名称与预设语义词典中各关键词之间的语义相似度，从而不论信息源的信息组织方式如何发生变化，均可以根据语义相似度计算来识别出所需的页面链接名称，此外还可以得到对应的链接地址，从而实现了网页数据的采集，避免了因信息源的信息组织方式发生变化而使网页数据的采集方式发生变化，从而提高了网页数据采集的时效性。

附图说明

图1为一个实施例中网页数据的采集方法的应用环境图；

图2为一个实施例中网页数据的采集方法的流程示意图；

图3为一个实施例中计算语义相似度步骤的流程示意图；

图4为另一个实施例中计算语义相似度步骤的流程示意图；

图5为一个实施例中网页数据的采集方法的流程示意图；

图6为一个实施例中网页数据的采集装置的结构框图；

图7为另一个实施例中网页数据的采集装置的结构框图；

图8为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中网页数据的采集方法的应用环境图。参照图1，该网页数据的采集方法应用于网页数据的采集系统。该网页数据的采集系统包括终端110和服务器120。终端110和服务器120通过网络连接。网页数据的采集方法可以应用于终端110，终端110加载待采集网页的网页地址，从服务器120获取对应的网页源代码，然后从网页源代码中提取链接地址和对应的页面链接名称；计算页面链接名称与预设语义词典中各关键词之间的语义相似度；从页面链接名称中选取语义相似度达到预设阈值的目标链接名称；将目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

网页数据的采集方法也可以应用于服务器120，服务器120接收终端110发送的待采集网页的网页地址，根据该网页地址获取对应的网页源代码，然后从网页源代码中提取链接地址和对应的页面链接名称；计算页面链接名称与预设语义词典中各关键词之间的语义相似度；从页面链接名称中选取语义相似度达到预设阈值的目标链接名称；将目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种网页数据的采集方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该网页数据的采集方法具体包括如下步骤：

S202，获取待采集网页的网页源代码。

其中，网页可以是是包含HTML(Hyper Text Markup Language，超文本标记语言)标签的纯文本文件，用于承载各种网站的应用、图像、视频、音频和文字中的至少一种。待采集网页可以是本发明实施例中需要从中进行数据采集的网页，如用户(或信息提供商)想从某个主页中采集所需的链接地址和对应的页面链接名称(如新闻主题)，那么该主页即为待采集网页。网页源代码可以是使用HTML编写的网页程序，可以通过网页浏览器(如IE)将网页源代码转为网页。

在一个实施例中，S202具体可以包括：终端获取待采集网页的网络地址；加载网络地址，通过加载的网络地址获得待采集网页的网页源代码。

其中，网络地址可以是IP(Internet Protocol，互联网协议)地址。在实际应用中，该网络地址可以是爬虫第一个采集的、关于企业或机构的网页地址，如主页地址、网站域名地址、频道二级域名地址、栏目地址以及任何一个网页地址中的任一种。

在一个实施例中，终端加载网络地址，即将网络地址封装于数据请求中，然后发送给服务器。服务器在接收到终端发送的数据请求时，解析该数据请求得到网络地址，然后根据该网络地址查找到对应的网页(如网页源代码)，然后将该网页数据发送给终端。其中，上述数据请求的格式可以是数据包，包括包头和数据正文部分。包头中包含有终端的IP地址和MAC(Media Access Control，媒体访问控制)地址；此外，还包含有服务器的IP地址和MAC地址。

例如，信息提供商要从某企业或机构的主页中获取所需的网页数据，则可以通过终端获取对应主页的网络地址，将该网络地址进行封装得到数据请求，然后发送给服务器。服务器在接收到网络地址时，根据该网络地址获取对应的网页源代码，然后返回给终端。

在一个实施例中，S202之前，该方法还可以包括：终端确定采集任务；根据采集任务配置对应的目标参数；其中，目标参数中包括用于识别末端页面的参数、预设语义词典、用于标识页面层次的参数以及用于表示频道和栏目的地址标识中的至少一种。

例如，在算法开始时，终端根据配置的目标参数进行初始化，包括标识页面层次的参数、用于识别末端页面的参数、用于识别频道和栏目的参数、语义词典等。其中，语义词典可以是同义词词典，为实现某一具体采集任务而设置，一般可以使用多个词语组合表示，第一个为主题词，其它的为同义词，如“财经|财经信息，财经新闻，每日财经，经济信息，经济新闻，地方财经”这样的词语组合。

S204，从网页源代码中提取链接地址和对应的页面链接名称。

其中，页面链接名称可以是待采集网页中的关于频道、栏目和资讯的主题名称，如网页中的词条。例如，待采集网页中的体育频道，对应的页面链接名称可以是体育。又例如，待采集网页中的科技频道，对应的页面链接名称可以是科技。又例如，待采集网页中有关于5G(第五代移动通信)的新闻资讯，资讯名称“我国在5G核心技术上取得领先地位”即为页面链接名称。需要说明的是，该页面链接名称具有网页超级链接，即终端在显示该页面链接名称时，用户用鼠标点击或用手触摸该页面链接名称，即可进入对应的资讯内容页面。

在一个实施例中，S204具体可以包括：终端将网页源代码中的表征脚本、页头和页尾的源代码部分进行删除；对经过删除处理后所得的网页源代码进行字符大小写转换；在经过删除处理后所得的网页源代码中，按照预设标签提取链接地址和对应的页面链接名称；对所提取到的链接地址和页面链接进行去重处理。

例如，终端对网页源代码进行HTML标签分析，获得用于表示脚本、页头、页尾和超链接的标签，例如，超链接的标签可以是a标签。然后，终端根据所获得的标签，将网页源代码中表示脚本、页头和页尾的源代码部分进行删除，并且将删除部分源代码后所得的网页源代码进行大小写转换，如将大写字母转换为小写字母。最后，终端对网页源代码从头到尾的a标签对进行分析，提取a标签中的链接地址和页面链接名称，该链接地址和页面链接名称可以组成键值对存放在链接集合A中。举例来说，网页源代码中的a标签“<a href＝"bus.sohu.com">财经</a>”，终端将a标签中的页面链接名称“财经”和链接地址“bus.sohu.com”提取出来，得到名称和地址键值对{财经|bus.sohu.com}。

S206，计算页面链接名称与预设语义词典中各关键词之间的语义相似度。

其中，预设语义词典可以是所要关注的领域(如财经)、技术(如AI)、或对象(如金融、科技或体育界的名人)等等。预设语义词典中，除了包含有所要关注的领域、技术或对象，还包含有与该领域、技术或对象相近的表达。例如，关注的领域为财经，与财经相近表达有“财经信息，财经新闻，每日财经，经济信息，经济新闻，地方财经”。

页面链接名称可以是新闻资讯的主题名称。在一个实施例中，终端依据页面链接名称与新闻资讯的具体页面内容之间存在高度相关性的原理，可以只使用页面链接名称与预设语义词典进行语义相关度的计算，得到页面链接名称与预设语义词典中各关键词之间的语义相似度。

此外，页面链接名称可以是频段或栏目的名称，终端可以计算页面链接名称与预设语义词典中各关键词之间的语义相似度，得到所需的频道和栏目。

S208，从页面链接名称中选取语义相似度达到预设阈值的目标链接名称。

其中，语义相似度达到预设阈值，表示对应的目标链接名称为用户所需的内容。

提取出来的页面链接名称和链接地址保存于链接集合中。在一个实施例中，终端在链接集合中选出语义相似度达到预设阈值的目标链接名称，并获取与目标链接名称对应的目标链接地址。

例如，终端从链接集合A中逐条取出页面链接名称进行分析，把符合条件的目标链接名称和对应的目标链接地址放入链接集合B中，可以对链接集合B进行下级页面的采集分析，或直接采集目标链接地址所对应的页面内容。

S210，将目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

其中，目标链接地址可以是末端页面的网络地址，也可以是非末端页面的网络地址，因此，对于S210，可以划分以下两种场景进行阐述：

场景1，目标链接地址为末端页面的网络地址。

在一个实施例中，S210具体可以包括：当确定目标链接地址为末端网页的链接地址时，表示目标链接地址所对应的网页为末端网页，该末端网页的内容即为资讯内容(包括视频、图像和文字中的至少一种)，因此，终端可以直接将目标链接名称和目标链接地址作为目标采集的网页数据。

场景2，目标链接地址为非末端页面的网络地址。

在一个实施例中，S210具体可以包括：当确定目标链接地址为非末端网页的链接地址时，表示目标链接地址所对应的网页为非末端网页，即还包含有下一级的链接地址，因此，终端则加载目标链接地址，以得到下一级待采集页面的网页源代码，递归执行从网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

例如，当确定目标链接地址为非末端网页的链接地址时，终端可以获取目标链接地址对应的待采集页面(即原始的待采集页面的下一级待采集页面)，然后获取下一级待采集页面的网页源代码，以便循环执行S202-S210的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址。

在一个实施例中，终端确定最大递归次数；按照最大递归次数递归执行从网页源代码中提取链接地址和对应的页面链接名称的步骤；在递归过程中，当得到末端网页所对应的目标链接名称和目标链接地址时，则将所得的目标链接名称和目标链接地址作为目标采集的网页数据；当递归次数达到最大递归次数，若未得到末端网页所对应的目标链接名称和目标链接地址，则停止递归计算，避免进入无限循环。

例如，若最大递归次数为8，假设待采集网页A的页面层次数有8层，超出8层之后将跳到外部网页。此时，终端在递归计算的过程中，先对待采集网页A的网页源代码进行分析，提取出所有a标签的页面链接名称和链接地址，将其作为名称和地址键值对保存于链接集合A中。终端采用语义相关度计算方法，得到符合条件的目标链接名称和目标链接地址，若目标链接地址为末端页面的网络地址时，则将其作为目标采集的网页数据；若目标链接地址为非末端页面的网络地址时，则将其作为名称和地址键值对保存于链接集合B中，继续下一级的操作，直至最大递归次数为8次时停止。

对于语义相似度未达到预设阈值的目标链接名称，可以分以下两种情况进行阐述：

情况1，目标链接地址为末端页面的网络地址。

在一个实施例中，该方法还可以包括：终端判断目标链接地址是否为末端网页的链接地址，当目标链接地址为末端网页的链接地址、且对应的语义相似度小于预设阈值时，表示对应的末端网页并非为用户所需的页面。因此，终端则删除目标链接地址和对应的目标链接名称。

情况2，目标链接地址为非末端页面的网络地址。

在一个实施例中，该方法还可以包括：终端判断目标链接地址是否为末端网页的链接地址，当目标链接地址为非末端网页的链接地址、且对应的语义相似度达到预设阈值时，表示该非末端网页虽然不符合条件，但其下一级待采集网页可能存在符合条件的。因此，终端则加载目标链接地址，以得到下一级待采集页面的网页源代码，递归执行从网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

例如，当确定目标链接地址为非末端网页的链接地址时，终端可以获取目标链接地址对应的待采集页面(即原始的待采集页面的下一级待采集页面)，然后获取下一级待采集页面的网页源代码，以便循环执行S202-S210的步骤，直至得到符合条件的末端网页所对应的目标链接名称和目标链接地址。

例如，若最大递归次数为8，假设待采集网页A的页面层次数有8层，超出8层之后将跳到外部网页。此时，终端在递归计算的过程中，先对待采集网页A的网页源代码进行分析，提取出所有a标签的页面链接名称和链接地址，将其作为名称和地址键值对保存于链接集合A中。终端采用语义相关度计算方法，得到不符合条件的目标链接名称和目标链接地址，若目标链接地址为末端页面的网络地址时，则将其从链接集合A中去除；若目标链接地址为非末端页面的网络地址时，则继续下一级的操作，直至最大递归次数为8次时停止。

上述实施例中，通过网页源代码中提取链接地址和对应的页面链接名称，然后计算页面链接名称与预设语义词典中各关键词之间的语义相似度，从而不论信息源的信息组织方式如何发生变化，均可以根据语义相似度计算来识别出所需的页面链接名称，此外还可以得到对应的链接地址，从而实现了网页数据的采集，避免了因信息源的信息组织方式发生变化而使网页数据的采集方式发生变化，从而提高了网页数据采集的时效性，同时还可以保证网页数据采集的准确性。

在一个实施例中，终端可以采用语义相关度计算方法计算页面链接名称与预设语义词典中各关键词之间的语义相似度。其中，语义相关度计算方法包括有基于词典相关度算法、基于字符串相关度算法、基于语义网络算法等。

针对上述三种语义相关度计算方法，对页面链接名称与预设语义词典中各关键词之间的语义相似度的计算进行阐述：

方法1，基于词典相关度算法。

在一个实施例中，终端查找页面链接名称中是否存在与预设语义词典中各关键词匹配的词；若查找到与预设语义词典中各关键词匹配的词时，则将页面链接名称和对应的页面链接名称确定为目标采集的网页数据。

例如，页面链接名称为“我国在5G核心技术上取得领先地位”，终端在该页面链接名称中查找是否存在与预设语义词典中各关键词匹配的词，若预设语义词典中的关键词为5G和人工智能时，则能够查找到匹配的词；若预设语义词典中的关键词为财经和人工智能时，则无法查找到匹配的词。

方法2，基于语义网络算法。

在一个实施例中，如图3所示，S206具体可以包括：

S302，从页面链接名称提取核心语义词。

其中，核心语义词也即页面链接名称中的关键词，可以表示页面链接名称的主旨。例如，页面链接名称为“我国在5G核心技术上取得领先地位”，其核心关键词可以是5G。

在一个实施例中，终端确定高频词汇，在页面链接名称中按照所确定的高频词汇查找是否存在匹配词，若存在匹配词，则将匹配词确定为页面链接名称的核心语义词。

在一个实施例中，终端采集用户行为数据，根据用户行为数据确定用户常用词汇，在页面链接名称中按照所确定的常用词汇查找是否存在匹配词，若存在匹配词，则将匹配词确定为页面链接名称的核心语义词。

S304，获取核心语义词的第一词向量；以及，获取预设语义词典中各关键词的第二词向量。

其中，词向量(Word embedding)可以是来自词汇表的单词、短语或文字被映射到实数的向量。

例如，核心语义词为：5G网络速度很快。预设语义词典中的关键词为：5G网络速度不慢。基本思路是：如果核心语义词与预设语义词典中的关键词的用词越相似，其内容就应该越相似。因此，可以从词频入手计算语义相似度。

第一步，分词。

核心语义词：5G网络/速度/很快；

预设语义词典中的关键词：5G网络/速度/不慢。

第二步，列出所有的词。

中国，的，5G网络，速度，很快，达到，数百兆，每秒。

第三步，计算词频。

核心语义词：5G网络1，速度1，很快1；

预设语义词典中的关键词：5G网络1，速度1，不慢0。

第四步，写出词频向量。

核心语义词：(1，1，1)；

预设语义词典中的关键词：(1，1，0)。

S306，计算第一词向量与第二词向量之间的余弦相似度。

其中，对于两个向量之间的相似度，可以将两个向量视为空间中的两条线段，都是从原点出发指向不同的方向，两条线段之间形成一个夹角，若夹角为0度，意味着方向相同(即线段重合)，表示两个向量代表的文本完全相等。若夹角为90度，意味着形成直角，方向完全不相似，表示两个向量代表的文本完全不相等。若夹角为180度，意味着方向正好相反。因此，终端以通过夹角的大小，来判断向量的相似程度，夹角越小表示越相似。

计算余弦相似度的表达式可以是：

其中，x_i为第一词向量中的元素，y_i为第二词向量中的元素。分别将第一词向量中的元素和第二词向量中的元素带入上式，即可得到第一词向量与第二词向量之间的余弦相似度。

S308，将余弦相似度确定为页面链接名称与预设语义词典中各关键词之间的语义相似度。

方法3，基于字符串相关度算法。

在一个实施例中，如图4所示，S206具体可以包括：

S402，计算页面链接名称转换为预设语义词典中各关键词的操作数。

其中，该操作数也可称为编辑次数，即将页面链接名称转换为预设语义词典中各关键词所需要编辑的次数。例如，将字符abe转换为abc需要一次操作即可，即把e替换为c。

在一个实施例中，终端通过增加、删减或替换的方式，将页面链接名称转换为预设语义词典中各关键词的操作数。

S404，对比页面链接名称的长度与预设语义词典中各关键词的长度，得到最大长度。

在一个实施例中，终端计算页面链接名称的长度和预设语义词典中各关键词的长度，并分别对比对比页面链接名称的长度与预设语义词典中各关键词的长度，从而得到最大长度。

S406，基于操作数和最大长度，计算页面链接名称与预设语义词典中各关键词之间的语义相似度。

假设，页面链接名称为：5G网络速度很快。预设语义词典中的关键词为：5G网络速度不慢。终端将页面链接名称转换为预设语义词典中的关键词的操作数为2，最大长度为8，那么页面链接名称与预设语义词典中各关键词之间的语义相似度即为1-(操作数/最大长度)＝1-2/8＝0.75。

上述实施例中，采用基于词典相关度算法、基于字符串相关度算法和基于语义网络算法中的任一种方式计算出语义相似度，从而不论信息源的信息组织方式如何发生变化，均可以根据语义相似度计算来识别出所需的页面链接名称，进而可以避免因信息源的信息组织方式发生变化而相应的网页数据的采集方式，从而提高了网页数据采集的时效性。

作为一个示例，本发明实施例从网页的链接结构出发，依据网页链接的页面内容与页面链接名称之间存在高度相关的原理，通过对页面链接名称的语义分析实现对指定网站内部页面的网页数据进行自动筛选和过滤，从而降低了个性化采集的实现难度和维护工作量，如图5所示，其技术实现方案包括：

算法开始时，终端根据实际需要对目标参数进行初始化，该目标参数包括：页面层次参数、末端页面识别的参数、频道和栏目识别的参数以及语义词典等。其中，语义词典主要是同义词词典，为实现某一具体采集任务而设置。语义词典一般使用多个词汇表示，第一个为主题词，其它为同义词。举例来说，语义词典如“财经|财经信息，财经新闻，每日财经，经济信息，经济新闻，地方财经”。

目标参数初始化完成之后，进行后续的网页数据采集过程：

(1)首先获取待采集网页(如指定的入口页面)的IP地址，并根据IP地址下载对应的网页源代码。

(2)对网页源代码进行HTML标签分析，获得用于表示脚本、页头、页尾和超链接的标签，根据所获得的标签来删除网页源代码中的脚本、页头和页尾，然后对网页源代码中的大小写进行转换等。此外，对网页源代码从头到尾的超链接标签(即a标签)对进行分析，提取a标签中的页面链接名称和对应的链接地址，形成名称和地址的键值对，放到链接集合A中。

例如，网页源代码中的a标签“<a href＝"bus.sohu.com">财经</a>”，提取出的名称和地址对为{财经|bus.sohu.com}。

(3)由于页面链接名称与页面内容之间存在的高度相关性，因此，可通过语义相关度计算方法计算页面链接名称与语义词典之间的语义相似度，从而根据语义相似度来获得用户所需页面内容的链接地址和页面链接名称。从链接集合A中逐条取出链接地址和页面链接名称进行分析，把符合条件的链接地址和页面链接名称放入页面集合B中，以便进行下级页面的采集分析，或直接采集页面内容。

其中，语义相关度计算方法包括：基于字符串相关度算法、基于词典相关度算法和基于语义网络算法。

基于字符串相关度算法是按固定顺序或无序的方式与语义字典中的关键词(如财经)比较，相同字符数在总字符数中的占比即为相似度，长度以最短的为准。相似度大于阈值的为相似，否则为不相似。

基于词典相关度算法是将所有页面链接名称与语义词典中的关键词(如主题同义词)进行比较，有则相似，无则不相似。语义主题词可与采集任务、网站进行自由组合，已达到不同的采集目的。

基于语义网络算法，是从连接名称中抽取核心语义词，然后借助语义网络分别获取词向量，通过计算两个词向量之间的余弦相似度值，小于0.2的为相似，否则为不相似。

(4)对于不符合语义条件的页面链接名称和链接地址，判断该链接地址是否为末端页面的IP地址，若是，则直接结束对当前页面链接名称和链接地址的分析；若否，则采集下一级待采集页面的网页源代码，并返回步骤(2)进行逐层分析，直到末端页面或递归到达设定的页面层次参数为止。

(5)对链接集合B中的链接地址所对应的网页源代码进行链接分析，得到关于第二级待采集页面的页面链接名称和链接地址，若所得到的链接地址为末端页面的IP地址时，则页面链接名称和链接地址作为所需要采集的网页数据保存于链接集合C。若所得到的链接地址为非末端页面的IP地址时，则根据链接地址下载下一级待采集网页，分析该下一级待采集网页的所有链接地址和页面链接名称，逐一判断是否为末端页面，若是，则将其链接放入集合C；若否，则继续递归，直至达到设定的页面层次参数为止。对于需要翻页的链接地址，在获取时需要递归到最后一页，所得到的链接集合C为符合当前语义条件的链接集合。

通过本发明实施例，从待采集网页的链接触发，利用页面链接名称与页面内容的高度相关性，对指定入口页面下的页面链接名称进行递归语义分析，满足了定点采集的时效性、准确性和及时性要求。简化了定点采集的任务配置、以语义不变应对网站改版的千变万化，极大地降低了采集的维护工作量和成本，提高了工作效率。

图2-5为一个实施例中网页数据的采集方法的流程示意图。应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种网页数据的采集装置，所述装置包括：源代码获取模块602、提取模块604、相似度计算模块606、链接名称选取模块608和网页数据确定模块610；其中：

源代码获取模块602，用于获取待采集网页的网页源代码；

提取模块604，用于从所述网页源代码中提取链接地址和对应的页面链接名称；

相似度计算模块606，用于计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度；

链接名称选取模块608，用于从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称；

网页数据确定模块610，用于将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。

在一个实施例中，所述网页数据确定模块610还用于：判断所述目标链接地址是否为末端网页的链接地址；若是，将所述目标链接名称和所述目标链接地址作为目标采集的网页数据；若否，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，如图7所示，该装置还包括：删除模块612；其中：

删除模块612，用于当所述目标链接地址为末端网页的链接地址、且对应的语义相似度小于所述预设阈值时，则删除所述目标链接地址和对应的目标链接名称；

网页数据确定模块610还用于当所述目标链接地址为非末端网页的链接地址、且对应的语义相似度达到所述预设阈值时，则加载所述目标链接地址，以得到下一级待采集页面的网页源代码，递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤，直至得到末端网页所对应的目标链接名称和目标链接地址，将所得的目标链接名称和目标链接地址作为目标采集的网页数据。

在一个实施例中，如图7所示，还包括：递归处理模块614；其中：

递归处理模块614，用于确定最大递归次数；按照所述最大递归次数递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤；

网页数据确定模块610还用于在递归过程中，当得到末端网页所对应的目标链接名称和目标链接地址时，则将所得的目标链接名称和目标链接地址作为目标采集的网页数据；

递归处理模块614还用于当递归次数达到所述最大递归次数，若未得到末端网页所对应的目标链接名称和目标链接地址，则停止递归计算。

在一个实施例中，源代码获取模块602还用于：获取待采集网页的网络地址；加载所述网络地址，通过加载的网络地址获得待采集网页的网页源代码。

在一个实施例中，提取模块604还用于：将所述网页源代码中的表征脚本、页头和页尾的源代码部分进行删除；对经过删除处理后所得的网页源代码进行字符大小写转换；在经过删除处理后所得的网页源代码中，按照预设标签提取链接地址和对应的页面链接名称；对所提取到的链接地址和页面链接进行去重处理。

在一个实施例中，如图7所示，该装置还可以包括：参数配置模块616；其中：

参数配置模块616，用于确定采集任务；根据所述采集任务配置对应的目标参数；其中，所述目标参数中包括用于识别末端页面的参数、所述预设语义词典、用于标识页面层次的参数以及用于表示频道和栏目的地址标识中的至少一种。

上述实施例中，通过网页源代码中提取链接地址和对应的页面链接名称，然后计算页面链接名称与预设语义词典中各关键词之间的语义相似度，从而不论信息源的信息组织方式如何发生变化，均可以根据语义相似度计算来识别出所需的页面链接名称，此外还可以得到对应的链接地址，从而实现了网页数据的采集，避免了因信息源的信息组织方式发生变化而使网页数据的采集方式发生变化，从而提高了网页数据采集的时效性。

在一个实施例中，如图7所示，该装置还可以包括：查找模块618；其中：

查找模块618，用于查找所述页面链接名称中是否存在与预设语义词典中各关键词匹配的词；

网页数据确定模块610还用于若查找到与所述预设语义词典中各关键词匹配的词时，则将所述页面链接名称和对应的页面链接名称确定为目标采集的网页数据。

在一个实施例中，相似度计算模块606还用于：从所述页面链接名称提取核心语义词；获取所述核心语义词的第一词向量；以及，获取所述预设语义词典中各关键词的第二词向量；计算所述第一词向量与所述第二词向量之间的余弦相似度；将所述余弦相似度确定为所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

在一个实施例中，相似度计算模块606还用于：计算所述页面链接名称转换为所述预设语义词典中各关键词的操作数；对比所述页面链接名称的长度与所述预设语义词典中各关键词的长度，得到最大长度；基于所述操作数和所述最大长度，计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图8所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现网页数据的采集方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行网页数据的采集方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的网页数据的采集装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该网页数据的采集装置的各个程序模块，比如，图6所示的源代码获取模块602、提取模块604、相似度计算模块606、链接名称选取模块608和网页数据确定模块610。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的网页数据的采集方法中的步骤。

例如，图8所示的计算机设备可以通过如图6所示的网页数据的采集装置中的源代码获取模块602执行S202。计算机设备可通过提取模块604执行S204。计算机设备可通过相似度计算模块606执行S206。计算机设备可通过链接名称选取模块608执行S208。计算机设备可通过网页数据确定模块610执行S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述网页数据的采集方法的步骤。此处网页数据的采集方法的步骤可以是上述各个实施例的网页数据的采集方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述网页数据的采集方法的步骤。此处网页数据的采集方法的步骤可以是上述各个实施例的网页数据的采集方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网页数据的采集方法，其特征在于，包括：

获取待采集网页的网页源代码；

从所述网页源代码中提取链接地址和对应的页面链接名称；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据包括：

判断所述目标链接地址是否为末端网页的链接地址；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

确定最大递归次数；

5.根据权利要求1所述的方法，其特征在于，所述获取待采集网页的网页源代码包括：

获取待采集网页的网络地址；

6.根据权利要求1所述的方法，其特征在于，所述从所述网页源代码中提取链接地址和对应的页面链接名称包括：

对经过删除处理后所得的网页源代码进行字符大小写转换；

对所提取到的链接地址和页面链接进行去重处理。

7.根据权利要求1所述的方法，其特征在于，所述获取待采集网页的网页源代码之前，还包括：

确定采集任务；

根据所述采集任务配置对应的目标参数；

8.根据权利要求1至7中任一项所述的方法，其特征在于，还包括：

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度包括：

从所述页面链接名称提取核心语义词；

获取所述核心语义词的第一词向量；以及，

获取所述预设语义词典中各关键词的第二词向量；

计算所述第一词向量与所述第二词向量之间的余弦相似度；

10.根据权利要求1至7中任一项所述的方法，其特征在于，所述计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度包括：

11.一种网页数据的采集装置，其特征在于，所述装置包括：

源代码获取模块，用于获取待采集网页的网页源代码；

12.根据权利要求11所述的装置，其特征在于，所述网页数据确定模块还用于：

判断所述目标链接地址是否为末端网页的链接地址；

13.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。