CN111143649A

CN111143649A - 一种网页搜索方法及装置

Info

Publication number: CN111143649A
Application number: CN201911250600.2A
Authority: CN
Inventors: 刘礼刚
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-12

Abstract

本说明书提供一种网页搜索方法及装置，其中方法包括：所述方法包括：从待爬取队列中，取出父网页统一资源定位符URL；从所述父网页URL对应的父网页，解析出所述父网页中包含的子网页URL；根据所述子网页URL，获取对应的子网页；根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度；若所述子网页的主题相关度大于或等于预设的相关度阈值，保存所述子网页；同时，将所述子网页的URL加入所述待爬取队列。以提高主题相关度计算的准确性。

Description

一种网页搜索方法及装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种网页搜索方法及装置。

背景技术

我们生活在大数据时代，如何快速而精准地在互联网资源中获取需要的数据，一直是网络研究的热点。搜索引擎能够提供更加准确和快速的搜索服务，成为一个重要发展方向。搜索引擎利用网络爬虫在互联网上自动地获取网络数据，对所获取的数据建立索引，以供用户进行信息查询。主题网络爬虫通过主题相关度计算，只爬取与特定主题相关的互联网数据，得到的数据更精确。

现有主题网络爬虫在计算主题相关度时，考虑了“上下文信息”这一判断因子。但是更多情况下，上下文信息偏少、充斥着噪音或者混杂在一起，这就导致考虑“上下文信息”因子后，主题相关度计算不准确。

发明内容

本说明书至少一个实施例提供了一种网页搜索方法，以提高主题相关度计算的准确性。

第一方面，提供了一种网页搜索方法，所述方法包括：

从待爬取队列中，取出父网页统一资源定位符URL；

从所述父网页URL对应的父网页，解析出所述父网页中包含的子网页URL；

根据所述子网页URL，获取对应的子网页；

根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度；

若所述子网页的主题相关度大于或等于预设的相关度阈值，保存所述子网页；同时，将所述子网页的URL加入所述待爬取队列。

第二方面，提供了一种网页搜索装置，所述装置包括：

URL取出模块，用于从待爬取队列中，取出父网页统一资源定位符URL；

URL解析模块，用于从所述父网页URL对应的父网页，解析出所述父网页中包含的子网页URL；

网页获取模块，用于根据所述子网页URL，获取对应的子网页；

主题相关度确定模块，用于根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度；

网页处理模块，用于若所述子网页的主题相关度大于或等于预设的相关度阈值，保存所述子网页；同时，将所述子网页的URL加入所述待爬取队列。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本说明书任一实施例所述的网页搜索方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例所述的网页搜索方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

图1是根据一示例性实施例示出的一种网页搜索方法流程图；

图2是根据一示例性实施例示出的一种网页搜索装置示意图；

图3是根据一示例性实施例示出的网页部分截图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

主题网络爬虫只爬取特定主题下的互联网数据，其在爬行过程中使用某一算法对网页进行主题相关度计算，根据计算结果判断该网页与主题不相关，则释放该网页；判断该网页与主题相关，则保存该网页并将该网页的URL加入待爬取队列。新一轮爬取开始时，从待爬取队列中取出URL，重新计算该URL对应网页的主题相关度并进行判断，依次循环爬取网络资源，直到满足停止条件。

目前，主题爬虫计算网页主题相关度时考虑了网页链接的“上下文信息”这一判断因子，但是网页链接上下文信息存在很大局限性，这就导致计算出的该网页的主题相关度不准确。例如，大多数情况下网页链接的上下文信息偏少，或者充斥着“噪音”。如图3是某网页的一个截图，从图中可以发现，当多个网页链接并列在一个页面内，上下文信息会混杂在一起。图中的网页链接都是关于不同的主题，这样利用“上下文信息”计算主题相关度很不准确，导致爬虫爬行了许多与主题无关的网页。

本说明书提供了一种网页搜索方法，该方法可应用于主题网络爬虫来爬取互联网数据。其中，该方法确定网页主题相关度时，将“上下文信息”因子替换为“网页标题”因子，通过删除“上下文信息”因子解决网页链接上下文信息存在局限性的问题；通过增加“网页标题”因子，利用网页标题对网页内容概括的特性，提高了对网页主题相关度计算的准确性。本说明书在对该网页搜索方法进行说明时，结合了主题网络爬虫爬取网络数据的过程，以便于对该方法的说明和理解。但是可以理解的是，该方法可以应用于任何获取网络资源的场景，本说明书对此不作限制。

为了使本说明书提供的网页搜索方法更加清楚，下面结合附图和具体实施例对本说明书提供的方案执行过程进行详细描述。

参见图1，图1是本说明书提供的实施例示出的一种网页搜索方法流程图。

如图1所示，该流程包括：

步骤101，从待爬取队列中，取出父网页统一资源定位符URL。

主题网络爬虫在进行网络数据爬取时，首先是从待爬取队列中用一定算法从待爬取队列中，获取一个新的URL作为父网页URL，同时将该父网页URL从待爬取队列中移除。其中，从待爬取队列中获取新的URL时，有多种实现方式。例如，从待爬取队列中随机获取一个URL作为父网页URL；或者，获取待爬取队列中排在第一位的URL作为父网页URL，本说明书不作限制。

在一个例子中，主题网络爬虫在进行网络数据爬取前，需要在待爬取队列中设置初始URL，以使该爬取方法能够获取父网页URL，并开始爬取网络数据。例如，在主题网络爬虫开始爬取前，根据经验在待爬取队列中设置一个或多个与主题相关的URL。

在另一个例子中，所述从待爬取队列中，取出父网页统一资源定位符URL，包括：将所述待爬取队列中的URL，按照所述URL对应网页的主题相关度进行排序；根据排序结果，由所述待爬取队列中选择主题相关度最高的URL作为所述父网页URL。例如，待爬取队列中存在URL1、URL2和URL3共三个URL，假设主题相关度分别为90、80和70，按照主题相关度进行排序后为：第一位：URL1；第二位：URL2；第三位：URL3；或者，按照主题相关度进行排序后为：第一位：URL3；第二位：URL2；第三位：URL1；最终取出主题相关度最高的URL3作为父网页URL。本说明书对URL排序方式不作任何限制，但最终选择的父网页URL为主题相关度最高的URL。这样，网络爬虫利用该网页搜索方法爬取网络数据时，能够优先爬取主题相关度更大的网络数据，从而提高了爬取网络数据的效率。

步骤102，从所述父网页URL对应的父网页，解析出所述父网页中包含的子网页URL。

在步骤101中取出父网页URL后，利用下载器下载对应的父网页，然后利用网页解析器解析出该父网页中包含的子网页URL，其中，子网页URL可能有一个或多个。

步骤103，根据所述子网页URL，获取对应的子网页。

步骤104，根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度。例如，对父网页的主题相关度和子网页的网页标题相关度分别各自取权重，进行加权求和，得到子网页的主题相关度。

其中，父网页的主题相关度和子网页的网页标题相关度可以借助常用的TF-IDF(term frequency-inverse document frequency，一种用于信息检索与数据挖掘的常用加权技术)公式计算得到。例如，利用以下公式进行计算：

其中，a_i为待分类的网页的特征向量，a_j为第j类的中心向量，N为特征向量的维度，w_jk和w_ik分别为向量的第k维在网页a_j和a_i中对应的权值。w_ik和w_jk采用以下公式来计算：

w_ij＝TF_ij×log(M/DF_j)

其中，TF_ij是特征项k_j在网页a_i中出现的次数；DF_j表示整个网页集A中包含特征项k_j的网页数，称为网页频率，IDF_j为DF_j的倒数，称为反转网页频率；M表示统计语料中网页总数。

这里的网页特征相量，即所有的相关度特征，例如关键字或者用于识别主题的标签；中心向量为需要匹配的内容，例如锚文本、网页内容或者网页标题。

在一个例子中，所述根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度，包括：根据所述父网页的主题相关度，确定继承值；根据所述子网页的网页标题相关度，确定本身值；根据所述继承值和所述本身值，确定所述子网页的主题相关度。例如，对父网页的主题相关度区一定权重得到继承值；对子网页的网页标题相关度区对应权重得到本身值；然后，对继承值和本身值进行加权求和得到子网页的主题相关度。

示例性的，在上述例子中，继承值可以用以下公式计算：

potential_score1＝α×current_score

其中，potential_score1表示子网页的继承值；current_score表示父网页的主题相关度；α表示父网页主题相关度的权重。

本身值可以用以下公式计算：

其中，potential_score2表示子网页的本身值；title_score表示子网页的网页标题相关度；

表示子网页的网页标题相关度权重。

子网页的主题相关度可以用以下公式计算：

potential_score＝θ×potential_score1+(1-θ)potential_score2

其中，potential_score表示子网页的主题相关度；potential_score1表示子网页的继承值；potential_score2表示子网页的本身值；θ表示子网页的继承值权重。

互联网在不断发展的过程中，网站为了盈利和生存，会在网站内投放许多广告或者引流链接等“噪音链接”，这使得很难确定这些链接是否与主题相关。噪音链接的出现，严重干扰了爬虫对该网页的主题相关度的计算，从而不能准确判断该网页是否是与主题相关的网页。

为此，在另一个例子中，所述根据所述子网页的网页标题相关度，确定本身值，包括：根据所述子网页的网页标题相关度和网页内容相关度，确定所述本身值；或者，根据所述子网页的网页标题相关度、网页内容相关度和网页锚文本相关度，确定所述本身值。例如，对子网页的网页标题相关度和网页内容相关度分别取权重，然后进行加权求和得到本身值；或者，对子网页的网页标题相关度、网页内容相关度和网页锚文本相关度分别取权重，然后进行加权求和得到本身值。其中，子网的网页内容相关度和网页锚文本相关度均可以通过上述TF-IDF公式计算得到，在此不再详述该公式相关内容。

上述例子中，在将“上下文信息”因子替换为“网页标题”因子的基础上，又增加了“网页内容”因子，利用网页标题相关度和网页内容相关度来确定子网页的本身值。噪音链接中一般不包含相关度的特征，利用网页内容因子得到的网页内容相关度几乎为0，从而可以很好的让爬虫避开噪音链接，提高对网页主题相关度的计算准确性，提升爬虫爬取网络数据的效率。

示例性的，在上述例子中，本身值可以用以下公式计算：

或者，本身值可以用以下公式计算：

表示子网页的网页标题相关度权重；content_score表示子网页的网页内容相关度；β表示子网页的网页内容相关度权重；anchor_score表示子网页的网页锚文本相关度；γ表示子网页的网页锚文本相关度权重。

步骤105，若所述子网页的主题相关度大于或等于预设的相关度阈值，保存所述子网页；同时，将所述子网页的URL加入所述待爬取队列。

比如，子网页的主题相关度为80，大于预设的主题相关度阈值50，则将该子网页进行保存；同时，将该子网页的URL作为下一爬取对象放入待爬取队列中。其中，将子网页进行保存后，还可以使用文本索引技术建立全文索引，以供互联网用户搜索。其中，将子网页的URL加入待爬取队列后，还可以将待爬取队列中重复的URL进行删除，从而避免爬虫重复的爬取相同的URL，提高了爬虫爬取网络数据的效率。

在一个例子中，所述将所述子网页的URL加入所述待爬取队列之后，还包括：若所述子网页的主题相关度小于所述预设的相关度阈值，释放所述子网页。即，如果该子网页与主题不相关，则忽略该子网页，重新获取新的子网页进行判断；或者从待爬取队列获取新的父网页URL，重新爬取子网页URL，以实现爬虫循环不断地获取相关网络数据。

在另一个例子中，所述将所述子网页的URL加入所述待爬取队列之后，还包括：确认爬取次数大于预设的爬取阈值，则停止爬取。即，如果爬取次数大于预设的爬取阈值，则满足了停止条件，爬虫停止爬取。该例子预设爬取阈值作为停止条件，但是可以理解的是，停止条件设置可以有多种形式，例如，可以是保存的相关子网页的数据量达到预设条件等，本说明书对此不作限制。

图2所示，本说明书提供了一种网页搜索装置，该装置可以执行本说明书任一实施例的网页搜索方法。该装置可以包括URL取出模块201、URL解析模块202、网页获取模块203、主题相关度确定模块204和网页处理模块205。其中：

URL取出模块201，用于从待爬取队列中，取出父网页统一资源定位符URL；

URL解析模块202，用于从所述父网页URL对应的父网页，解析出所述父网页中包含的子网页URL；

网页获取模块203，用于根据所述子网页URL，获取对应的子网页；

主题相关度确定模块204，用于根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度；

网页处理模块205，用于若所述子网页的主题相关度大于或等于预设的相关度阈值，保存所述子网页；同时，将所述子网页的URL加入所述待爬取队列。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书至少一个实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时能够实现本说明书任一实施例的网页搜索方法。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时能够实现本说明书任一实施例的网页搜索方法。

其中，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等，本申请并不对此进行限制。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用于限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种网页搜索方法，其特征在于，所述方法包括：

从待爬取队列中，取出父网页统一资源定位符URL；

根据所述子网页URL，获取对应的子网页；

2.根据权利要求1所述的方法，其特征在于，所述从待爬取队列中，取出父网页统一资源定位符URL，包括：

将所述待爬取队列中的URL，按照所述URL对应网页的主题相关度进行排序；

根据排序结果，由所述待爬取队列中选择主题相关度最高的URL作为所述父网页URL。

3.根据权利要求1所述的方法，其特征在于，所述根据所述父网页的主题相关度和所述子网页的网页标题相关度，确定所述子网页的主题相关度，包括：

根据所述父网页的主题相关度，确定继承值；

根据所述子网页的网页标题相关度，确定本身值；

根据所述继承值和所述本身值，确定所述子网页的主题相关度。

4.根据权利要求3所述的方法，其特征在于，所述根据所述子网页的网页标题相关度，确定本身值，包括：

根据所述子网页的网页标题相关度和网页内容相关度，确定所述本身值；

或者，根据所述子网页的网页标题相关度、网页内容相关度和网页锚文本相关度，确定所述本身值。

5.根据权利要求1所述的方法，其特征在于，所述将所述子网页的URL加入所述待爬取队列之后，还包括：

若所述子网页的主题相关度小于所述预设的相关度阈值，释放所述子网页。

6.根据权利要求1所述的方法，其特征在于，所述将所述子网页的URL加入所述待爬取队列之后，还包括：

确认爬取次数大于预设的爬取阈值，则停止爬取。

7.一种网页搜索装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-6中任一项所述的方法。