CN106970962A

CN106970962A - 一种获取搜索引擎搜索结果的方法和装置

Info

Publication number: CN106970962A
Application number: CN201710170469.3A
Authority: CN
Inventors: 项菲; 杜翠兰; 钮艳; 王红兵; 刘晓辉; 易立; 李鹏霄; 张琳; 鲁睿
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2017-07-21
Anticipated expiration: 2037-03-21
Also published as: CN106970962B

Abstract

本发明公开了一种获取搜索引擎搜索结果的方法和装置。所述方法包括：输入待测试的搜索引擎、关键词和页码；将关键词和页码输入搜索引擎对应的搜索引擎模板，获得关键词和页码对应的一级页面地址；将一级页面地址输入到预设的浏览器中，通过浏览器访问一级页面地址，并获取一级页面地址对应一级页面信息和二级页面信息。本发明采用自动化的方式获取搜索引擎的搜索结果，通过预先设置搜索引擎模板的方式，自动获得一级页面地址，并将一级页面地址输入预设的浏览器中，进而通过访问该一级页面地址，自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率，提高搜索效果以及获得搜索结果的效率。

Description

一种获取搜索引擎搜索结果的方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种获取搜索引擎搜索结果的方法和装置。

背景技术

目前，随着大数据时代的到来，用户可以通过搜索引擎从海量数据中搜索出自身所需的数据。在实际应用中，搜索引擎开发人员经常需要验证搜索算法爬取回来的结果与预想是否一致，需要验证的方面包括搜索结果的内容、数量、排序等。然而，在验证过程中，需要开发人员手动访问搜索引擎主页，在搜索框输入关键词，跳转到搜索结果页的第一页，通过眼睛判断网页访问情况，手动截取屏幕信息，点击网页链接并获取二级界面信息，第一页操作完毕，手动点击下一页按钮进行跳转以及手动截屏。

所以，开发人员手工进行搜索验证的效率低，且覆盖范围小，准确率低，而且结果展示不直观。因此，如何高效而准确地获取实际搜索结果就成为了本领域亟待解决的技术问题。

发明内容

本发明要解决的技术问题是提供一种获取搜索引擎搜索结果的方法和装置，用以解决现有技术中开发人员手工进行搜索验证的效率低且准确率低的技术问题。

针对上述技术问题，本发明是通过以下技术方案来解决的：

本发明公开了一种获取搜索引擎搜索结果的方法，所述方法包括：输入待测试的搜索引擎、关键词和页码；将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址；将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

其中，将所述一级页面地址输入到预设的浏览页中，包括：预设多个浏览器；采用多线程的方式，将所述一级页面地址同时输入到所述多个浏览器中。

其中，获取所述一级页面地址对应一级页面信息，包括：根据所述搜索引擎模板中的Xpath，在所述一级页面地址对应的HtmlDom树中，获取所述一级页面信息。

其中，获取所述一级页面地址对应的二级页面信息，包括：通过Selenium或者HttpGet，获取所述一级页面地址对应的二级页面信息。

其中，所述一级页面信息包括：一级页面截屏信息，一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息；所述二级页面信息包括：二级页面的URL信息，二级页面是否访问成功的信息，二级页面截屏信息，以及二级页面的标题信息和包含所述关键词的段落信息。

本发明还提供了一种获取搜索引擎搜索结果的装置，所述装置包括：输入模块，用于输入待测试的搜索引擎、关键词和页码；将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址；获取模块，用于将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

其中，所述获取模块，用于：预设多个浏览器；采用多线程的方式，将所述一级页面地址同时输入到所述多个浏览器中。

其中，所述获取模块，用于：根据所述搜索引擎模板中的Xpath，在所述一级页面地址对应的HtmlDom树中，获取所述一级页面信息。

其中，所述获取模块，用于：通过Selenium或者HttpGet，获取所述一级页面地址对应的二级页面信息。

本发明有益效果如下：

本发明采用自动化的方式获取搜索引擎的搜索结果，通过预先设置搜索引擎模板的方式，自动获得一级页面地址，并将一级页面地址输入预设的浏览器中，进而通过访问该一级页面地址，自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率，提高搜索效果以及获得搜索结果的效率。

附图说明

图1是根据本发明一实施例的获取搜索引擎搜索结果的方法流程图；

图2是根据本发明一实施例的获取搜索引擎搜索结果的示意图；

图3是根据本发明一实施例的一级页面解析示意图；

图4是根据本发明一实施例的其他页码的一级页面示意图；

图5是根据本发明另一实施例的一级页面解析示意图；

图6是根据本发明另一实施例的其他页码的一级页面示意图；

图7是根据本发明一实施例的获取搜索引擎搜索结果的装置结构图。

具体实施方式

本发明提出一种高效、准确、自动获取搜索引擎搜索结果的方法和装置，本发明可以应用于搜索结果的快速批量验证。本发明对搜索引擎进行解析，生成对应的搜索引擎模板，根据搜索引擎模板获取一级页面信息和二级页面信息，并可以采用多线程、多浏览器的方式，同时进行搜索以优化性能，提高获取搜索结果的效率，判定搜索结果的准确性和可用性。

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明实施例提供一种获取搜索引擎搜索结果的方法。本实施例可以应用在搜索工具中。

图1是根据本发明一实施例的获取搜索引擎搜索结果的方法流程图。

步骤S110，输入待测试的搜索引擎、关键词和页码。

步骤S120，将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址。

一级页面地址是指搜索结果页(一级页面)的URL(Uniform Resource Locator，统一资源定位符)地址。在搜索结果页中包括多个搜索结果项。

通过对每种搜索引擎采用的URL格式进行分析，可以获得每种搜索引擎对应的搜索引擎模板。

搜索引擎模板包括：一级页面的URL地址的格式模板及用于二级页面的URL、标题、摘要定位的XPath(Xml Path Language，可扩展标记语言路径语言)。

在本实施例中，将所述关键词和所述页码输入所述搜索引擎对应的一级页面的URL地址的格式模板，获得所述关键词和所述页码对应的一级页面地址。

步骤S130，将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

在本实施例中，可以预设多个浏览器；采用多线程的方式，将所述一级页面地址同时输入到预设的多个浏览器中。将一级页面地址直接输入到浏览器中，可以省略开发人员人工在浏览器中选择搜索引擎，在搜索引擎中输入关键词进行搜索，并在诸多搜索结果页中选择页码的过程，有效提高了搜索效率。

一级页面信息包括：一级页面截屏信息，一级页面中包含的二级页面(搜索结果项对应的页面)的编码URL信息、标题信息和摘要信息。其中，一级页面截屏信息是一级页面的截屏；编码URL为经过搜索引擎编码的URL地址，需要通过访问该编码URL才能够得到真实的URL地址。

二级页面信息包括：二级页面的URL信息，二级页面是否访问成功的信息，二级页面截屏信息，二级页面的标题信息和包含所述关键词的段落信息。其中，二级页面截屏信息是二级页面的截屏。

具体而言，通过所述浏览器访问所述一级页面地址，可以在浏览器中显示一级页面地址对应的一级页面，通过浏览器解析所述一级页面，可以生成所述一级页面地址对应的HtmlDom树；根据搜索引擎模板中用于二级页面的URL、标题和摘要定位的Xpath，可以在所述一级页面地址对应的HtmlDom树中，获取到一级页面中包含的二级页面的编码URL信息、标题信息和摘要信息。

通过浏览器访问二级页面的编码URL，可以获取到二级页面信息。进一步地，通过Selenium或者HttpGet，获取所述一级页面地址对应的二级页面信息。

可以在浏览器中打开二级页面的编码URL对应的二级页面，通过Selenium获取该二级页面的URL，二级页面是否访问成功的信息，二级页面截屏信息，以及二级页面的标题信息和包含所述关键词的段落信息。打开二级页面后获得的二级页面的URL为该二级页面真实的URL。

还可以在浏览器中打开二级页面的编码URL对应的二级页面，通过HttpGet获取二级页面的响应码，如果该响应码不等于200或者二级页面为空白页，则记录该二级页面无法访问，如果该响应码等于200且二级页面不是空白页，则记录二级页面访问成功，进而在访问成功的二级页面中获取该二级页面的URL信息并且进行截屏，以及获取二级页面截屏信息，以及二级页面的标题信息和包含所述关键词的段落信息。

在获取到一级页面信息之后，可以将二级页面的编码URL信息、标题信息和摘要信息，存储在二级页面结果集合中。

在本实施例中，由于打来浏览器会占用较长时间，为了提高搜索效率，一级页面信息和二级页面信息异步返回。

如图2所示，为根据本发明一实施例的获取搜索引擎搜索结果的示意图。

预先设置搜索引擎模板库，在搜索引擎模板库中包括：一级页面的URL地址的格式模板及用于二级页面的URL、标题、摘要定位的XPath(Xml Path Language，可扩展标记语言路径语言)。图2中左侧使用的为URL地址的格式模板，右侧使用的为用于二级页面的URL、标题、摘要定位的XPath。

用户在搜索工具中输入搜索引擎、关键词和页码的信息。

搜索工具执行搜索过程。具体地，搜索工具获取搜索引擎对应的一级页面的URL地址的格式模板，并将关键词和页码输入到该格式模板中获得一级页面地址；从预先设置的包含多个浏览器的浏览器池中获取一个或多个浏览器，将一级页面地址输入到该一个或多个浏览器中，同时访问该一级页面地址。

针对其中一个浏览器进行说明，浏览器访问该一级页面地址，通过解析生成该一级页面地址对应的HtmlDom树；对一级页面地址对应的一级页面进行截图，并根据搜索引擎模板库中，该搜索引擎对应的二级页面的URL、标题、摘要定位的XPath，在HtmlDom树中分别获取每个二级页面的编码URL地址、二级页面的title(标题)和二级页面的摘要。

浏览器打开二级页面的编码URL地址，获取真实的URL地址；通过HttpGet方式，获取二级页面的响应码(ResponseCode)；判断该ResponseCode是否等于200，如果否，则直接确定二级页面无法访问；如果是，则获取二级页面截屏信息，并判断二级页面是否为空白屏(空白页面)，如果否，则确定二级页面访问成功，记录二级页面中包含关键词的段落，如果否，则确定二级页面访问失败。

在获得一级页面信息和二级页面信息之后，输出该一级页面信息和二级页面信息，以便进行验证搜索算法的准确性。其中，二级页面信息中二级页面的title可以使用一级页面信息中的二级页面的title。

例如：输入百度搜索引擎、张三、页码1；根据百度搜索引擎对应的一级页面的URL地址的格式模板，生成百度搜索引擎对应的包含“张三”和“页码1”的一级页面地址；获取火狐浏览器，将包含“张三”和“页码1”的一级页面地址输入到火狐浏览器中，得到如图3所示的页面；火狐浏览器对一级页面进行解析，可以获得HtmlDom树，图3中下面方框所在位置的代码为二级页面的编码URL。如果需要获取其他页码对应的一级页面信息和二级页面信息，用户可以更改输入的页码。由于每种搜索引擎具有各自的页码表示方式，一级页面的URL地址的格式模板中还应包含页码转换算法，如图3中，rev_idx＝1表示页码1对应的一级页面，图4中，pn＝20表示页码3对应的一级页面。

又如：输入搜狗搜索引擎、张三、页码1；根据搜狗搜索引擎对应的一级页面的URL的格式模板，生成搜狗搜索引擎对应的包含“张三”和“页码1”的一级页面地址；获取火狐浏览器，将包含“张三”和“页码1”的一级页面地址输入到火狐浏览器中，得到如图5所示的页面；火狐浏览器对一级页面进行解析，可以获得HtmlDom树，图5中下面方框所在位置的代码为二级页面的编码URL。如果需要获取其他页码对应的一级页面信息和二级页面信息，用户可以更改输入的页码。图5未写出page，表示页码1对应的一级页面，图6中，page＝3表示页码3对应的一级页面。

本发明完全自动化的获取搜索引擎的搜索结果，采取了对网页全面分析、配置多模板、截屏、抓取title和包含关键词段落等多种方式，来保证搜索结果的准确性。

为了提高搜索结果的发现效率，本发明可以基于任务进行搜索，每个任务可以支持配置多个搜索引擎和关键词，并且，本发明主要从以下四个方面对搜索性能进行了优化。

(1)通过关键词和页码获得搜索引擎对应的URL，相比较于在搜索框输入关键词和点击“下一页”的方式，本发明简单直接，而且高效易扩展。

(2)多线程、多浏览器同时进行搜索，搜索效率高。

(3)HttpGet快速获取URL响应情况。在实际搜索过程中发现，一级页面中的相当一部分地址无法访问，通过HttpGet获取响应码的方式可以快速判断页面响应情况。

(4)异步返回测试结果。在实际搜索过程中发现，打开浏览器会占用相对较长时间，所以，为了快速展示主要信息，采用一级页面信息和二级页面信息异步返回的方式提高测试速度。

本发明还提供了一种获取搜索引擎搜索结果的装置，图7是根据本发明一实施例的获取搜索引擎搜索结果的装置结构图。

输入模块710，用于输入待测试的搜索引擎、关键词和页码；将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址；

获取模块720，用于将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

进一步地，所述获取模块720，用于：预设多个浏览器；采用多线程的方式，将所述一级页面地址同时输入到所述多个浏览器中。

进一步地，所述获取模块720，用于：根据所述搜索引擎模板中的Xpath，在所述一级页面地址对应的HtmlDom树中，获取所述一级页面信息。

进一步地，所述获取模块720，用于：通过Selenium或者HttpGet，获取所述一级页面地址对应的二级页面信息。

进一步地，所述一级页面信息包括：一级页面截屏信息，一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息；所述二级页面信息包括：二级页面的URL信息，二级页面是否访问成功的信息，二级页面截屏信息，以及二级页面的标题信息和包含所述关键词的段落信息。

本实施例所述的装置的功能已经在图1～图6所示的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种获取搜索引擎搜索结果的方法，其特征在于，所述方法包括：

输入待测试的搜索引擎、关键词和页码；

将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址；

将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

2.如权利要求1所述的方法，其特征在于，将所述一级页面地址输入到预设的浏览页中，包括：

预设多个浏览器；

采用多线程的方式，将所述一级页面地址同时输入到所述多个浏览器中。

3.如权利要求1所述的方法，其特征在于，获取所述一级页面地址对应一级页面信息，包括：

根据所述搜索引擎模板中的Xpath，在所述一级页面地址对应的HtmlDom树中，获取所述一级页面信息。

4.如权利要求1所述的方法，其特征在于，获取所述一级页面地址对应的二级页面信息，包括：

通过Selenium或者HttpGet，获取所述一级页面地址对应的二级页面信息。

5.如权利要求1～4中任一项所述的方法，其特征在于，

所述一级页面信息包括：一级页面截屏信息，一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息；

所述二级页面信息包括：二级页面的URL信息，二级页面是否访问成功的信息，二级页面截屏信息，以及二级页面的标题信息和包含所述关键词的段落信息。

6.一种获取搜索引擎搜索结果的装置，其特征在于，所述装置包括：

输入模块，用于输入待测试的搜索引擎、关键词和页码；将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板，获得所述关键词和所述页码对应的一级页面地址；

获取模块，用于将所述一级页面地址输入到预设的浏览器中，通过所述浏览器访问所述一级页面地址，并获取所述一级页面地址对应一级页面信息和二级页面信息。

7.如权利要求6所述的装置，其特征在于，所述获取模块，用于：

预设多个浏览器；

8.如权利要求6所述的装置，其特征在于，所述获取模块，用于：

9.如权利要求6所述的装置，其特征在于，所述获取模块，用于：

10.如权利要求6～9中任一项所述的装置，其特征在于，