CN106547821A

CN106547821A - 一种浏览器内根据关键词搜索相关网页的方法

Info

Publication number: CN106547821A
Application number: CN201610864049.0A
Authority: CN
Inventors: 谢国波; 王朝阳
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-03-29

Abstract

本发明涉及一种浏览器内根据关键词搜索相关网页的方法，第一步提取出页面中有效的URL链接，第二步通过Ajax技术异步依次提交所有的URL和关键词到服务器，服务器对相关链接进行解析，对相应的页面进行关键词定位，最后服务器把查找的结果返回至浏览器，第三步当浏览器从服务器获得查询结果后，对匹配到的信息进行解析并在浏览器搜索栏中显示出来，用户通过点击相应的搜索结果可以直接打开对应超链接的网页。使用本发明，用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过，并且可以直接打开对应的页面进行查看，方便快捷，大大提高了工作效率。

Description

一种浏览器内根据关键词搜索相关网页的方法

技术领域

本发明涉及网络搜索的技术领域，尤其涉及到一种浏览器内根据关键词搜索相关网页的方法。

背景技术

随着互联网的快速普及，越来越多人使用电脑或者手机上网查看资讯。在打开的网页中查找关键词是浏览器的一项重要功能，这一功能可以帮助用户快速定位所需要查找的信息。

在现有的浏览器页面关键词搜索装置中，通过关键词定位，我们可以快速找到我们想要的信息所在的位置，缺点是如果我们想要查找的关键词并不在该页面，而在该页面所链接到的其他相关页面，我们则查询不到任何结果。我们通常浏览的网页，都并不是完全独立的页面，尤其是信息类网站，页面之间的关联通常很紧密，如新闻网站，打开一个新闻事件页面，往往会有多个相关报道，如果我们想要获取比较详细的信息，只能逐一点开与该页面相关联的其他新闻页面。

发明内容

本发明的目的在于克服现有技术的不足，提供一种方便快捷、搜索效率高的浏览器内根据关键词搜索相关网页的方法。

为实现上述目的，本发明所提供的技术方案为：它包括以下步骤：

(1)用户在搜索栏输入想要搜索的关键词，提取当前页面有效的URL链接并组成URL数组，把该URL数组和关键词发送至服务器；

(2)服务器端接收查询请求并解析，对URL数组中的每个页面进行检索，返回对应检索结果的json字符串至浏览器；

(3)浏览器端接收查询结果并解析，格式化后显示在搜索窗口中。

进一步地，所述步骤1)中提取当前页面有效的URL链接组成URL数组包括以下步骤：

1)使用jQuery获取所有<a>标签的href属性，生成URL数组；

2)获取URL字符串的http://至域名部分，与当前页的对应部分进行匹配，如果不一致则从数组中移除；

3)删除数组中重复的URL；

4)清除无效链接。

进一步地，所述步骤2)中对URL数组中的每个页面进行检索包括以下步骤：

1))获取对应URL的整个DOM内容；

2))提取出DOM树中的h1,h2,h3,h4,h5,h6以及p标签的文本内容，提取出title标签的文本内容；

3))对步骤2))中提取出的文本内容与关键词进行匹配，如果匹配成功，则记录匹配的字符串以及对应的URL链接和title内容；如果没有匹配成功，则不做任何处理；重复步骤1))，直到整个URL数组被检索结束。

4))把步骤3))中最终匹配成功的结果存入json对象，生成字符串。

进一步地，所述提取当前页面有效的URL链接组成URL数组时，通过使用jQuery标签选择器$(‘a’)选中页面中所有的<a>标签，然后使用$.map方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中；采用$.unique方法对数组元素进行去重。

进一步地，所述URL数组和关键词通过Ajax技术异步提交至服务器。

与现有技术相比，本方案第一步提取出页面中有效的URL链接，第二步通过Ajax技术异步依次提交所有的URL和关键词到服务器，服务器对相关链接进行解析，对相应的页面进行关键词定位，最后服务器把查找的结果返回至浏览器，第三步当浏览器从服务器获得查询结果后，对匹配到的信息进行解析并在浏览器搜索栏中显示出来，最后用户通过点击相应的搜索结果可以直接打开对应超链接的网页。使用本方案的方法，用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过，并且可以直接打开对应的页面进行查看，方便快捷，大大提高了工作效率。

附图说明

图1为本发明一种浏览器内根据关键词搜索相关网页的方法的运行流程图；

图2为本发明一种浏览器内根据关键词搜索相关网页的方法中服务器解析二级页面的运行流程图；

图3为本发明一种浏览器内根据关键词搜索相关网页的方法中浏览器解析搜索结果的运行流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1至3所示，本实施例所述的一种浏览器内根据关键词搜索相关网页的方法，它包括以下步骤：

(1)用户在搜索栏输入想要搜索的关键词，提取当前页面有效的URL链接并组成URL数组，把该URL数组和关键词发送至服务器。

首先通过使用jQuery标签选择器$(‘a’)选中页面中所有的<a>标签，然后使用$.map方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中，生成URL数组；获取URL字符串的http://至域名部分，如：http://www.gdut.edu.cn，与当前页的对应部分进行匹配，如果不一致则从数组中移除；后面采用$.unique方法对数组元素进行去重；最后清除无效链接；最终得到一个无重复的，包含所有当前页面相关页面的有效的URL数组，把该URL数组和关键词通过Ajax技术异步发送至服务器。

(2)服务器端接收查询请求并解析，对URL数组中的每个页面进行检索，返回对应检索结果的json字符串至浏览。

当远程服务器接收到查询请求，首先会解析接收到的json字符串转换为数据对象，从中提取出URL链接数组以及关键词；采用cURL抓取对应URL的DOM树，然后用正则表达式提取出所有的文章标签,<h1><h2><h3><h4><h5><h6><p>的内容，对该文本内容进行关键字匹配，当匹配成功时，对应的文本内容会被记录到数组中去，当整个DOM树被搜索完成后，服务器会把已匹配的文本数组与对应的URL转换为json对象发送至浏览器端。

例子：一个介绍苹果的页面里超链接有两个“雪梨的种类”与“雪梨的产地”关于雪梨的页面，倘若在当前介绍苹果的页面，在浏览器现有关键词搜索装置中输入关键词“雪梨”进行查找，关键词搜索装置不能找到任何匹配信息，但采用本实施例的方法，该装置返回来自超链接“雪梨的种类”与超链接“雪梨的产地”所对应页面的匹配结果。

使用本实施例的方法，用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过，并且可以直接打开对应的页面进行查看，方便快捷，大大提高了工作效率

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种浏览器内根据关键词搜索相关网页的方法，其特征在于：它包括以下步骤：

2.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法，其特征在于：所述步骤1)中提取当前页面有效的URL链接组成URL数组包括以下步骤：

1)使用jQuery获取所有<a>标签的href属性，生成URL数组；

3)删除数组中重复的URL；

4)清除无效链接。

3.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法，其特征在于：所述步骤2)中对URL数组中的每个页面进行检索包括以下步骤：

1))获取对应URL的整个DOM内容；

4.根据权利要求2所述的一种浏览器内根据关键词搜索相关网页的方法，其特征在于：所述提取当前页面有效的URL链接组成URL数组时，通过使用jQuery标签选择器选中页面中所有的<a>标签，然后使用方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中；采用方法对数组元素进行去重。

5.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法，其特征在于：所述URL数组和关键词通过Ajax技术异步提交至服务器。