CN106547821A - 一种浏览器内根据关键词搜索相关网页的方法 - Google Patents

一种浏览器内根据关键词搜索相关网页的方法 Download PDF

Info

Publication number
CN106547821A
CN106547821A CN201610864049.0A CN201610864049A CN106547821A CN 106547821 A CN106547821 A CN 106547821A CN 201610864049 A CN201610864049 A CN 201610864049A CN 106547821 A CN106547821 A CN 106547821A
Authority
CN
China
Prior art keywords
url
page
browser
arrays
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610864049.0A
Other languages
English (en)
Inventor
谢国波
王朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610864049.0A priority Critical patent/CN106547821A/zh
Publication of CN106547821A publication Critical patent/CN106547821A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种浏览器内根据关键词搜索相关网页的方法,第一步提取出页面中有效的URL链接,第二步通过Ajax技术异步依次提交所有的URL和关键词到服务器,服务器对相关链接进行解析,对相应的页面进行关键词定位,最后服务器把查找的结果返回至浏览器,第三步当浏览器从服务器获得查询结果后,对匹配到的信息进行解析并在浏览器搜索栏中显示出来,用户通过点击相应的搜索结果可以直接打开对应超链接的网页。使用本发明,用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过,并且可以直接打开对应的页面进行查看,方便快捷,大大提高了工作效率。

Description

一种浏览器内根据关键词搜索相关网页的方法
技术领域
本发明涉及网络搜索的技术领域,尤其涉及到一种浏览器内根据关键词搜索相关网页的方法。
背景技术
随着互联网的快速普及,越来越多人使用电脑或者手机上网查看资讯。在打开的网页中查找关键词是浏览器的一项重要功能,这一功能可以帮助用户快速定位所需要查找的信息。
在现有的浏览器页面关键词搜索装置中,通过关键词定位,我们可以快速找到我们想要的信息所在的位置,缺点是如果我们想要查找的关键词并不在该页面,而在该页面所链接到的其他相关页面,我们则查询不到任何结果。我们通常浏览的网页,都并不是完全独立的页面,尤其是信息类网站,页面之间的关联通常很紧密,如新闻网站,打开一个新闻事件页面,往往会有多个相关报道,如果我们想要获取比较详细的信息,只能逐一点开与该页面相关联的其他新闻页面。
发明内容
本发明的目的在于克服现有技术的不足,提供一种方便快捷、搜索效率高的浏览器内根据关键词搜索相关网页的方法。
为实现上述目的,本发明所提供的技术方案为:它包括以下步骤:
(1)用户在搜索栏输入想要搜索的关键词,提取当前页面有效的URL链接并组成URL数组,把该URL数组和关键词发送至服务器;
(2)服务器端接收查询请求并解析,对URL数组中的每个页面进行检索,返回对应检索结果的json字符串至浏览器;
(3)浏览器端接收查询结果并解析,格式化后显示在搜索窗口中。
进一步地,所述步骤1)中提取当前页面有效的URL链接组成URL数组包括以下步骤:
1)使用jQuery获取所有<a>标签的href属性,生成URL数组;
2)获取URL字符串的http://至域名部分,与当前页的对应部分进行匹配,如果不一致则从数组中移除;
3)删除数组中重复的URL;
4)清除无效链接。
进一步地,所述步骤2)中对URL数组中的每个页面进行检索包括以下步骤:
1))获取对应URL的整个DOM内容;
2))提取出DOM树中的h1,h2,h3,h4,h5,h6以及p标签的文本内容,提取出title标签的文本内容;
3))对步骤2))中提取出的文本内容与关键词进行匹配,如果匹配成功,则记录匹配的字符串以及对应的URL链接和title内容;如果没有匹配成功,则不做任何处理;重复步骤1)),直到整个URL数组被检索结束。
4))把步骤3))中最终匹配成功的结果存入json对象,生成字符串。
进一步地,所述提取当前页面有效的URL链接组成URL数组时,通过使用jQuery标签选择器$(‘a’)选中页面中所有的<a>标签,然后使用$.map方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中;采用$.unique方法对数组元素进行去重。
进一步地,所述URL数组和关键词通过Ajax技术异步提交至服务器。
与现有技术相比,本方案第一步提取出页面中有效的URL链接,第二步通过Ajax技术异步依次提交所有的URL和关键词到服务器,服务器对相关链接进行解析,对相应的页面进行关键词定位,最后服务器把查找的结果返回至浏览器,第三步当浏览器从服务器获得查询结果后,对匹配到的信息进行解析并在浏览器搜索栏中显示出来,最后用户通过点击相应的搜索结果可以直接打开对应超链接的网页。使用本方案的方法,用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过,并且可以直接打开对应的页面进行查看,方便快捷,大大提高了工作效率。
附图说明
图1为本发明一种浏览器内根据关键词搜索相关网页的方法的运行流程图;
图2为本发明一种浏览器内根据关键词搜索相关网页的方法中服务器解析二级页面的运行流程图;
图3为本发明一种浏览器内根据关键词搜索相关网页的方法中浏览器解析搜索结果的运行流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
参见附图1至3所示,本实施例所述的一种浏览器内根据关键词搜索相关网页的方法,它包括以下步骤:
(1)用户在搜索栏输入想要搜索的关键词,提取当前页面有效的URL链接并组成URL数组,把该URL数组和关键词发送至服务器。
首先通过使用jQuery标签选择器$(‘a’)选中页面中所有的<a>标签,然后使用$.map方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中,生成URL数组;获取URL字符串的http://至域名部分,如:http://www.gdut.edu.cn,与当前页的对应部分进行匹配,如果不一致则从数组中移除;后面采用$.unique方法对数组元素进行去重;最后清除无效链接;最终得到一个无重复的,包含所有当前页面相关页面的有效的URL数组,把该URL数组和关键词通过Ajax技术异步发送至服务器。
(2)服务器端接收查询请求并解析,对URL数组中的每个页面进行检索,返回对应检索结果的json字符串至浏览。
当远程服务器接收到查询请求,首先会解析接收到的json字符串转换为数据对象,从中提取出URL链接数组以及关键词;采用cURL抓取对应URL的DOM树,然后用正则表达式提取出所有的文章标签,<h1><h2><h3><h4><h5><h6><p>的内容,对该文本内容进行关键字匹配,当匹配成功时,对应的文本内容会被记录到数组中去,当整个DOM树被搜索完成后,服务器会把已匹配的文本数组与对应的URL转换为json对象发送至浏览器端。
(3)浏览器端接收查询结果并解析,格式化后显示在搜索窗口中。
例子:一个介绍苹果的页面里超链接有两个“雪梨的种类”与“雪梨的产地”关于雪梨的页面,倘若在当前介绍苹果的页面,在浏览器现有关键词搜索装置中输入关键词“雪梨”进行查找,关键词搜索装置不能找到任何匹配信息,但采用本实施例的方法,该装置返回来自超链接“雪梨的种类”与超链接“雪梨的产地”所对应页面的匹配结果。
使用本实施例的方法,用户可以快速的查找到输入的关键词在与本网页相关的哪些页面中出现过,并且可以直接打开对应的页面进行查看,方便快捷,大大提高了工作效率
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.一种浏览器内根据关键词搜索相关网页的方法,其特征在于:它包括以下步骤:
(1)用户在搜索栏输入想要搜索的关键词,提取当前页面有效的URL链接并组成URL数组,把该URL数组和关键词发送至服务器;
(2)服务器端接收查询请求并解析,对URL数组中的每个页面进行检索,返回对应检索结果的json字符串至浏览器;
(3)浏览器端接收查询结果并解析,格式化后显示在搜索窗口中。
2.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法,其特征在于:所述步骤1)中提取当前页面有效的URL链接组成URL数组包括以下步骤:
1)使用jQuery获取所有<a>标签的href属性,生成URL数组;
2)获取URL字符串的http://至域名部分,与当前页的对应部分进行匹配,如果不一致则从数组中移除;
3)删除数组中重复的URL;
4)清除无效链接。
3.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法,其特征在于:所述步骤2)中对URL数组中的每个页面进行检索包括以下步骤:
1))获取对应URL的整个DOM内容;
2))提取出DOM树中的h1,h2,h3,h4,h5,h6以及p标签的文本内容,提取出title标签的文本内容;
3))对步骤2))中提取出的文本内容与关键词进行匹配,如果匹配成功,则记录匹配的字符串以及对应的URL链接和title内容;如果没有匹配成功,则不做任何处理;重复步骤1)),直到整个URL数组被检索结束。
4))把步骤3))中最终匹配成功的结果存入json对象,生成字符串。
4.根据权利要求2所述的一种浏览器内根据关键词搜索相关网页的方法,其特征在于:所述提取当前页面有效的URL链接组成URL数组时,通过使用jQuery标签选择器选中页面中所有的<a>标签,然后使用方法遍历数组提取出所有<a>标签的herf属性存放入新的数组中;采用方法对数组元素进行去重。
5.根据权利要求1所述的一种浏览器内根据关键词搜索相关网页的方法,其特征在于:所述URL数组和关键词通过Ajax技术异步提交至服务器。
CN201610864049.0A 2016-09-29 2016-09-29 一种浏览器内根据关键词搜索相关网页的方法 Pending CN106547821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610864049.0A CN106547821A (zh) 2016-09-29 2016-09-29 一种浏览器内根据关键词搜索相关网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610864049.0A CN106547821A (zh) 2016-09-29 2016-09-29 一种浏览器内根据关键词搜索相关网页的方法

Publications (1)

Publication Number Publication Date
CN106547821A true CN106547821A (zh) 2017-03-29

Family

ID=58368648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610864049.0A Pending CN106547821A (zh) 2016-09-29 2016-09-29 一种浏览器内根据关键词搜索相关网页的方法

Country Status (1)

Country Link
CN (1) CN106547821A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299376A (zh) * 2018-10-26 2019-02-01 深圳点猫科技有限公司 一种基于教育云操作系统的模糊搜索方法及装置
CN110020309A (zh) * 2017-12-04 2019-07-16 北京搜狗科技发展有限公司 一种页面处理方法和装置
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727471A (zh) * 2008-10-30 2010-06-09 鸿富锦精密工业(深圳)有限公司 网站内容检索系统及方法
CN103123640A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种小说的搜索方法和装置
CN103778156A (zh) * 2012-10-24 2014-05-07 阿里巴巴集团控股有限公司 数据搜索的方法和装置以及用于数据搜索的服务器
CN104391978A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 用于浏览器的网页收藏处理方法及装置
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727471A (zh) * 2008-10-30 2010-06-09 鸿富锦精密工业(深圳)有限公司 网站内容检索系统及方法
CN103123640A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种小说的搜索方法和装置
CN103778156A (zh) * 2012-10-24 2014-05-07 阿里巴巴集团控股有限公司 数据搜索的方法和装置以及用于数据搜索的服务器
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN104391978A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 用于浏览器的网页收藏处理方法及装置
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020309A (zh) * 2017-12-04 2019-07-16 北京搜狗科技发展有限公司 一种页面处理方法和装置
CN109299376A (zh) * 2018-10-26 2019-02-01 深圳点猫科技有限公司 一种基于教育云操作系统的模糊搜索方法及装置
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统

Similar Documents

Publication Publication Date Title
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
KR100505848B1 (ko) 검색 시스템
TWI695277B (zh) 自動化網站資料蒐集方法
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
US20080306941A1 (en) System for automatically extracting by-line information
CN101004762A (zh) 一种动态多维互联网网页系统
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN101097578A (zh) 一种网络资源检索方法及系统
CN101676907A (zh) 一种互联网资源定向获取方法及系统
CN103678412A (zh) 一种文档检索的方法及装置
CN103778238B (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
CN110970112B (zh) 一种面向营养健康的知识图谱构建方法和系统
CN106547821A (zh) 一种浏览器内根据关键词搜索相关网页的方法
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN110297994A (zh) 网页数据的采集方法、装置、计算机设备和存储介质
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170329

RJ01 Rejection of invention patent application after publication