CN103092945A - 一种基于界面返回的搜索方法和装置 - Google Patents

一种基于界面返回的搜索方法和装置 Download PDF

Info

Publication number
CN103092945A
CN103092945A CN2013100103215A CN201310010321A CN103092945A CN 103092945 A CN103092945 A CN 103092945A CN 2013100103215 A CN2013100103215 A CN 2013100103215A CN 201310010321 A CN201310010321 A CN 201310010321A CN 103092945 A CN103092945 A CN 103092945A
Authority
CN
China
Prior art keywords
web page
page fragments
fragments
storehouse
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100103215A
Other languages
English (en)
Other versions
CN103092945B (zh
Inventor
贾晨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310010321.5A priority Critical patent/CN103092945B/zh
Publication of CN103092945A publication Critical patent/CN103092945A/zh
Application granted granted Critical
Publication of CN103092945B publication Critical patent/CN103092945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于界面返回的搜索方法和装置,其中方法包括:S101.获取网页信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中;S102.在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。本发明能够在用户搜索某一查询词时,直接返回相关网页的界面,能够更加迅速地响应用户的需求、节约用户的时间。

Description

一种基于界面返回的搜索方法和装置
【技术领域】
本发明涉及搜索引擎技术,尤其涉及一种基于界面返回的搜索方法和装置。
【背景技术】
搜索引擎已经成为当今互联网领域中不可缺少的核心技术,如今,大量的用户都习惯于利用搜索引擎来查询所需求的信息或访问相关的页面。搜索引擎的技术从诞生至今已经过了许多改进和发展,其中,如何准确便捷的满足用户需求、改善用户体验一直是各个搜索引擎网站探索的重点。
目前网页搜索引擎提供的服务通常是,先由用户输入查询词后确认搜索,之后根据该查询词的搜索结果,向用户返回相关页面的链接以及摘要等,用户根据需求点击某一链接来访问对应的网页。分析用户的上网行为后可以发现,许多用户会通过某一查询词搜索到相关网页后,访问该网页来使用该网页的一些固定功能,或者通过某一查询词来搜索相关新闻,例如,用户会搜索快递公司的主页,来查询快递单的情况。如果直接在用户输入查询词时向用户返回相关网页的界面,并能让用户在该界面执行相应操作,或者,在用户输入查询词时向用户返回相关信息的浏览界面,便可以更加迅速地响应用户的需求,能够节约用户的时间。
【发明内容】
本发明提供了一种基于界面返回的搜索方法和装置,能够在用户搜索某一查询词时,直接返回相关网页的界面。
具体技术方案如下:
一种基于界面返回的搜索方法,从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;该方法包括:
接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据本发明一优选实施例,从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据本发明一优选实施例,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据本发明一优选实施例,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据本发明一优选实施例,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体包括:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据本发明一优选实施例,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。
根据本发明一优选实施例,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
一种基于界面返回的搜索装置,该装置包括:
建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;
检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
根据本发明一优选实施例,所述建库单元从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
根据本发明一优选实施例,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
根据本发明一优选实施例,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
根据本发明一优选实施例,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
根据本发明一优选实施例,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
根据本发明一优选实施例,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
根据本发明一优选实施例,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的所对应的网页片段。
根据本发明一优选实施例,所述检索单元在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
由以上技术方案可以看出,本发明通过建立网页片段库来保存所抓取到的各个网页的片段以及对应描述,能够在用户输入查询词时获取匹配的网页片段并以界面形式返回。本发明使得用户在输入查询词时,能够实时获取到相应的网页片段界面,并能直接在网页片段界面中执行相应操作或者浏览相关信息,可见,本发明能够更加迅速地响应用户的需求,节约用户的时间。
【附图说明】
图1为本发明实施例一所提供的基于界面返回的搜索方法流程图;
图2为本发明实施例一所提供的建立网页片段库的方法流程图;
图3为本发明实施例一所提供的导航网页片段示例图;
图4为本发明实施例一所提供的功能性网页片段示例图;
图5为本发明实施例二所提供的基于界面返回的搜索装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明主要包括建库和检索两部分内容,建库即指预先获取各个网页的信息,并提取网页片段以及对应的描述来建立网页片段库;检索即指根据用户输入的查询词向用户返回匹配的网页片段。下面将通过实施例对本发明的具体内容进行详细阐述。
实施例一
图1为本发明实施例一所提供的基于界面返回的搜索方法流程图,如图1所示,该方法包括:
S101、获取网页信息,从所获取的网页信息中提取网页片段以及对应的描述并存入网页片段库中。
为了能够在用户搜索关键词时直接以界面形式向用户返回对应的网页片段,需要先建立一个保存有各个网页片段的网页片段库。网页片段库可以包括:各个网页导航或者菜单信息的网页片段,以及各个网页的功能性网页片段和浏览性网页片段,其中,某一网页的导航(或者菜单信息)的网页片段中的导航或者菜单选项可以对应该网页相应的功能性网页片段或者浏览性网页片段。
在获取各个网页片段的同时,可以提取出网页片段的描述,以便于后续步骤能根据用户输入的查询词与网页片段的描述的匹配度获取符合用户需求的网页片段。
如图2所示,建立网页片段库具体可以通过下述步骤来实现:
S1011、预先获取各个网页信息,根据预先设定的规则提取网页的导航网页片段,并提取对应的描述,存入网页片段库中。
网页信息可以利用网络爬虫来获取,之后,对所获取的网页的源代码进行预处理,通过编码转换,将所获取的源代码统一为UTF-8编码,过滤其中的边框广告等无关内容。之后,比较同一个站点下的不同页面的编码结构和内容以及树结构,认为其中不同页面下的编码结构以及内容相同的部分为该站点的导航(或者菜单信息),提取该部分的网页代码作为导航网页片段代码,并分析该站点的站点名、标题等信息,从中提取关键词作为与所提取的该站点的导航或者菜单信息网页片段对应的描述,将所提取的导航网页片段代码与描述形成对应关系后存入网页片段库。
S1012、根据预先设定的规则,提取网页的浏览性网页片段和功能性网页片段以及对应的描述,存入网页片段库中。
针对提取了导航网页片段后的网页的剩余片段或者没有导航网页片段的网页,根据网页代码中的标签来判断该网页中的片段属于浏览性还是功能性。浏览性网页片段即指向用户提供特定信息浏览服务(如新闻)的网页片段,功能性网页片段即指向用户提供特定功能服务(如查询快递订单)的网页片段。
通常,向用户提供特定的功能服务都需要与网站后台进行交互,即,功能性网页片段通常需要与网站后台进行交互,因此,可以根据网页的源代码中是否存在涉及到与后台进行交互的标签来判断网页片段属于浏览性还是功能性,若网页的源代码中存在涉及到与后台进行交互的标签,则该网页的片段为功能性网页片段,若网页的源代码中不存在涉及到与后台进行交互的标签,则该网页的片段为浏览性网页片段。涉及到与后台进行交互的标签可以依据在代码语法规则中各个标签的作用来确定,例如,form标签即为HTML语言中常用的与后台进行交互的标签,此外,input、checkbox、ext、radio、password、button等也均为涉及到与后台进行交互的标签。
针对功能性网页片段,根据网页源代码中的from标签等涉及到提交的标签,提取网页中对应的交互片段的代码作为功能性网页片段代码,并提取相关的文字信息或者关键词作为该交互片段对应的描述,将所提取的功能性网页片段代码与描述形成对应关系后存入网页片段库。
针对浏览性网页片段,根据网页的DOM树的结构以及内容,提取网页中对应的浏览信息片段代码,并提取相关的文字信息或者关键词作为该浏览信息片段对应的描述,将所提取的浏览性网页片段代码与描述形成对应关系后存入网页片段库。
其中,所提取的功能性网页片段或者浏览性网页片段对应的描述可以来自下述内容:所提取的网页代码中的title标签对应的内容;或者,所提取的网页代码中的meta元素的内容;或者,分析DOM树后得到的功能性网页片段或者浏览性网页片段对应的父节点的内容;或者,功能性网页片段或者浏览性网页片段对应的面包屑路径的内容(面包屑路径为网页层级属性链接组成的线性链接标示)。
更进一步地,当所提取的导航网页片段中的导航或者菜单选项指向某一对应的功能性网页片段或者浏览性网页片段时,获取导航网页片段中的指向该功能性网页片段或者浏览性网页片段的选项的URL,并将该URL与该功能性网页片段或者浏览性网页片段形成对应关系后保存至网页片段库。通过在网页片段库中保存功能性网页片段或者浏览性网页片段与导航或者菜单选项URL的对应关系,能够使得用户在返回的导航网页片段中选择某一选项时,能够根据URL在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并返回给用户。
更进一步地,当所提取的功能性网页片段或者浏览性网页片段中存在返回导航界面(或返回主页)的选项时,获取功能性网页片段或者浏览性网页片段中返回导航界面选项的URL,并在网页片段库中保存该URL与相应的导航网页片段的对应关系。
通过上述步骤S1011-S1012能够建立保存有导航网页片段、浏览性网页片段和功能性网页片段以及对应的描述的网页片段库,网页片段库中还可以进一步包括浏览性网页片段或功能性网页片段与导航网页片段中相应选项的URL的对应关系,以及导航网页片段与浏览性网页片段或功能性网页片段中相应选项的URL的对应关系。
更进一步地,为了能够更为准确地向用户返回网页片段,上述建立网页片段库的方法还可以包括步骤S1013。
S1013、根据网页片段库中的网页片段对应的描述的相似度,对已保存的网页片段进行去重处理。
比较网页片段库中所保存的各个网页片段对应的描述,对其中相似度高于预先设定范围的网页片段进行去重处理,可以根据实际需要保留其中与描述契合度最高的网页片段或者保留其中更为热门的网页。相似度即的各个网页片段对应的描述中的文字信息的相似度。
通过上述步骤S101能够建立网页片段库,为了保证向用户返回结果的准确性,可以通过人工对所保存的网页片段进行进一步审核,同时,也可以通过人工将系统未能准确抓取的热门网页片段添加到网页片段库中。
S102、在网页片段库中检索与用户输入的查询词匹配的网页片段的描述,并返回对应的网页片段。
根据用户输入的查询词在所建立的网页片段库中保存的记录里检索与之匹配的网页片段的描述,并返回对应的网页片段,可以为每个网页片段设定权重,若某个网页片段的描述与查询词的匹配程度越高,那么该网页片段的权重值也越高,最后以界面形式向用户返回一个或多个权重值高于预设阈值的网页片段。
更进一步地,由于用户输入的查询词与网页片段的描述匹配的准确度通常与查询词的长度有关,即,查询词的长度越长,就越能准确分析用户的查询需求,同时与网页片段描述的匹配也越精确,因此,可以根据用户输入查询词的长度来设定不同的返回策略。可以以下述情况为例设定返回策略:
1、当用户输入的查询词长度小于预设的第一长度阈值时。
当用户输入的查询词长度较短(小于预设的第一长度阈值时)时,无法准确分析用户需求,因此可以以界面形式向用户返回与查询词匹配的导航网页片段,由用户从导航网页片段中选择其需要的功能或者浏览选项,具体可以是:若存在与用户输入的查询词一个或多个权重值大于预设的第一权重阈值的导航网页片段,则以界面形式向用户返回该一个或多个导航网页片段。
2、当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时。
当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时,可以初步分析用户的需求属于浏览性还是功能性,具体可以根据用户输入的查询词来判定,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的浏览性网页片段,则抽取该一个或多个浏览性网页片段的前N个字段以界面形式返回给用户,其中N为预设的正整数;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的功能性网页片段,则抽取该一个或多个功能性网页片段的交互片段并以界面形式返回给用户。
3、当用户输入的查询词长度大于预设的第三长度阈值时。
当用户输入的查询词较长(大于预设的第三长度阈值时)时,可以准确分析用户的查询需求,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的浏览性网页片段时,则以界面形式向用户返回该一个或多个浏览性网页片段;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的功能性网页片段时,则以界面形式向用户返回该一个或多个功能性网页片段。
上述为结合用户输入的查询词的长度向用户返回匹配的网页片段的策略示例,在实际应用中可以根据需要指定不同的策略,本发明对此不做限制。
需要说明的是,由于网页片段库保存的网页片段均为代码的形式,在向用户返回时,需要对网页片段进行重新渲染才能将其以界面形式展现,渲染可以通过按照W3C规则对网页片段进行重写来实现,可以在向用户返回结果的过程中实时渲染,也可以对返回频次较高的网页片段结果进行渲染后缓存,需要时直接返回缓存的结果。
更进一步地,在根据用户输入的查询词向用户以界面形式返回网页片段的同时,还可以以界面形式向用户返回该查询词的搜索结果,即,可以将该检索词通过搜索引擎搜索后得到的前N个结果以界面形式返回给用户,其中N为预设的正整数。可以将前N个搜索结果的超链接、摘要以及URL按照W3C规则包装为HTML片段后以界面形式返回给用户,之后用户可以直接点击其中的超链接来访问对应的网页。
更进一步地,在获取与用户输入的查询词匹配的网页片段的过程中,可以结合网页片段所在网页在搜索引擎中的实时热度和历史热度来生成网页片段的权值Weight,例如,可以利用Weight=a×Sim+b×History(page)+c×Now(page)来得到网页片段的权值,其中,Sim为网页片段的描述与用户输入查询词的相似度,History(page)为网页片段所在网页的历史热度,Now(page)为网页片段所在网页的实时热度,a、b、c为预设的系数。
同时,还可以进一步在用户输入查询词时,返回相关的联想词,这部分为现有技术,在此不过多赘述。
本发明可以当用户在搜索框内输入查询词时,实时向用户以界面形式返回网页片段,当用户开始输入查询词时,可以在网页片段库中检索匹配的导航网页片段并以界面形式在搜索框下返回给用户,之后用户可以选择导航网页中的导航或者菜单选项,根据用户的选择,在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并以界面形式在搜索框下返回给用户,同时,可以将用户在搜索框中输入的查询词自动变换成与所返回的功能性网页片段或者浏览性网页片段的描述所对应的查询词。
例如,如图3所示示例,用户在搜索框中输入“汇通”,则可以以界面形式在搜索框下向用户返回“汇通快运”主页的导航网页片段,之后若用户选择了导航选项中的“网点分布”这一选项,则可以以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段,同时,搜索框中的查询词也自动由“汇通”变换为“汇通网点分布”。用户也可以从“网点分布”的网页片段中选择返回主页,此时将重新向用户返回汇通快运主页的导航网页片段,同时,搜索框中的查询词也自动由汇通“汇通网点分布”变换为“汇通”。
用户也可以进一步丰富查询词的内容来获得较为精确的功能性网页片段或者浏览性网页片段。例如,如图4所示示例,用户可以直接输入“汇通查询”,则可以直接以界面形式在搜索框下向用户返回汇通快运的“查快递单“的功能性网页片段。
用户可以通过修改查询词来切换所返回的网页片段,例如,用户输入“汇通”时,向用户返回的是“汇通快运”主页的导航网页片段,用户可以进一步输入“汇通查询”,此时,向用户返回的是汇通快运的“查快递单”功能性网页片段,若用户删除所输入查询词“汇通查询”中的“查询”,则将重新向用户返回“汇通快运”主页的导航网页片段。
实施例二
图5为本发明实施例二所提供的基于界面返回的搜索装置示意图,如图5所示,该装置包括:建库单元10和检索单元20。
建库单元10,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库。
为了能够在用户搜索关键词时直接以界面形式向用户返回对应的网页片段,需要建库单元10先建立一个保存有各个网页片段的网页片段库。网页片段库可以包括:各个网页导航或者菜单信息的网页片段,以及各个网页的功能性网页片段和浏览性网页片段,其中,某一网页的导航(或者菜单信息)的网页片段中的导航或者菜单选项可以对应该网页相应的功能性网页片段或者浏览性网页片段。
在获取各个网页片段的同时,建库单元10可以提取出网页片段的描述,以便于后续步骤能根据用户输入的查询词与网页片段的描述的匹配度获取符合用户需求的网页片段。
建库单元10具体可以执行下述操作来建立网页片段库:
S2011、预先获取各个网页信息,根据预先设定的规则提取网页的导航网页片段,并提取对应的描述,存入网页片段库中。
网页信息可以利用网络爬虫来获取,之后,对所获取的网页的源代码进行预处理,通过编码转换,将所获取的源代码统一为UTF-8编码,过滤其中的边框广告等无关内容。之后,比较同一个站点下的不同页面的编码结构和内容以及树结构,认为其中不同页面下的编码结构以及内容相同的部分为该站点的导航(或者菜单信息),提取该部分的网页代码作为导航网页片段代码,并分析该站点的站点名、标题等信息,从中提取关键词作为与所提取的该站点的导航或者菜单信息网页片段对应的描述,将所提取的导航网页片段代码与描述形成对应关系后存入网页片段库。
S2012、根据预先设定的规则,提取网页的浏览性网页片段和功能性网页片段以及对应的描述,存入网页片段库中。
针对提取了导航网页片段后的网页的剩余片段或者没有导航网页片段的网页,根据网页代码中的标签来判断该网页中的片段属于浏览性还是功能性。浏览性网页片段即指向用户提供特定信息浏览服务(如新闻)的网页片段,功能性网页片段即指向用户提供特定功能服务(如查询快递订单)的网页片段。
通常,向用户提供特定的功能服务都需要与网站后台进行交互,即,功能性网页片段通常需要与网站后台进行交互,因此,可以根据网页的源代码中是否存在涉及到与后台进行交互的标签来判断网页片段属于浏览性还是功能性,若网页的源代码中存在涉及到与后台进行交互的标签,则该网页的片段为功能性网页片段,若网页的源代码中不存在涉及到与后台进行交互的标签,则该网页的片段为浏览性网页片段。涉及到与后台进行交互的标签可以依据在代码语法规则中各个标签的作用来确定,例如,form标签即为HTML语言中常用的与后台进行交互的标签,此外,input、checkbox、ext、radio、password、button等也均为涉及到与后台进行交互的标签。
针对功能性网页片段,根据网页源代码中的from标签等涉及到提交的标签,提取网页中对应的交互片段的代码作为功能性网页片段代码,并提取相关的文字信息或者关键词作为该交互片段对应的描述,将所提取的功能性网页片段代码与描述形成对应关系后存入网页片段库。
针对浏览性网页片段,根据网页的DOM树的结构以及内容,提取网页中对应的浏览信息片段代码,并提取相关的文字信息或者关键词作为该浏览信息片段对应的描述,将所提取的浏览性网页片段代码与描述形成对应关系后存入网页片段库。
其中,所提取的功能性网页片段或者浏览性网页片段对应的描述可以是来自下述内容:所提取的网页代码中的title标签对应的内容;或者,所提取的网页代码中的meta元素的内容;或者,分析DOM树后得到的功能性网页片段或者浏览性网页片段对应的父节点的内容;或者,功能性网页片段或者浏览性网页片段对应的面包屑路径的内容(面包屑路径为网页层级属性链接组成的线性链接标示)。
更进一步地,当所提取的导航网页片段中的导航或者菜单选项指向某一对应的功能性网页片段或者浏览性网页片段时,获取导航网页片段中的指向该功能性网页片段或者浏览性网页片段的选项的URL,并将该URL与该功能性网页片段或者浏览性网页片段形成对应关系后保存至网页片段库。通过在网页片段库中保存功能性网页片段或者浏览性网页片段与导航或者菜单选项URL的对应关系,能够使得用户在返回的导航网页片段中选择某一选项时,能够根据URL在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并返回给用户。
更进一步地,当所提取的功能性网页片段或者浏览性网页片段中存在返回导航界面(或返回主页)的选项时,获取功能性网页片段或者浏览性网页片段中返回导航界面选项的URL,并在网页片段库中保存该URL与相应的导航网页片段的对应关系。
通过执行上述操作S2011-S2012,建库单元10能够建立保存有导航网页片段、浏览性网页片段和功能性网页片段以及对应的描述的网页片段库,网页片段库中还可以进一步包括浏览性网页片段或功能性网页片段与导航网页片段中相应选项的URL的对应关系,以及导航网页片段与浏览性网页片段或功能性网页片段中相应选项的URL的对应关系。
更进一步地,为了能够更为准确地向用户返回网页片段,建库单元10还可以执行操作S2013。
S2013、根据网页片段库中的网页片段对应的描述的相似度,对已保存的网页片段进行去重处理。
比较网页片段库中所保存的各个网页片段对应的描述,对其中相似度高于预先设定范围的网页片段进行去重处理,可以根据实际需要保留其中与描述契合度最高的网页片段或者保留其中更为热门的网页。相似度即的各个网页片段对应的描述中的文字信息的相似度。
通过执行上述操作,建库单元10能够建立网页片段库,为了保证向用户返回结果的准确性,可以通过人工对所保存的网页片段进行进一步审核,同时,也可以通过人工将系统未能准确抓取的热门网页片段添加到网页片段库中。
检索单元20,用于在所述网页片段库中检索与用户输入的查询词匹配的描述,并以界面形式返回对应的网页片段。
检索单元20根据用户输入的查询词在所建立的网页片段库中保存的记录里检索与之匹配的网页片段的描述,并返回对应的网页片段,检索单元20可以为每个网页片段设定权重,若某个网页片段的描述与查询词的匹配程度越高,那么该网页片段的权重值也越高,最后以界面形式向用户返回一个或多个权重值高于预设阈值的网页片段。
更进一步地,由于用户输入的查询词与网页片段的描述匹配的准确度通常与查询词的长度有关,即,查询词的长度越长,就越能准确分析用户的查询需求,同时与网页片段描述的匹配也越精确,因此,检索单元20可以根据用户输入查询词的长度来设定不同的返回策略。可以以下述情况为例设定返回策略:
1、当用户输入的查询词长度小于预设的第一长度阈值时。
当用户输入的查询词长度较短(小于预设的第一长度阈值时)时,无法准确分析用户需求,因此可以以界面形式向用户返回与查询词匹配的导航网页片段,由用户从导航网页片段中选择其需要的功能或者浏览选项,具体可以是:若存在与用户输入的查询词一个或多个权重值大于预设的第一权重阈值的导航网页片段,则以界面形式向用户返回该一个或多个导航网页片段。
2、当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时。
当用户输入的查询词长度大于预设的第一长度阈值且小于预设的第二长度阈值时,可以初步分析用户的需求属于浏览性还是功能性,具体可以根据用户输入的查询词来判定,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的浏览性网页片段,则抽取该一个或多个浏览性网页片段的前N个字段以界面形式返回给用户,其中N为预设的正整数;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第二权重阈值的功能性网页片段,则抽取该一个或多个功能性网页片段的交互片段并以界面形式返回给用户。
3、当用户输入的查询词长度大于预设的第三长度阈值时。
当用户输入的查询词较长(大于预设的第三长度阈值时)时,可以准确分析用户的查询需求,若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的浏览性网页片段时,则以界面形式向用户返回该一个或多个浏览性网页片段;若存在与用户输入的查询词匹配的一个或多个权重值大于预设的第三权重阈值的功能性网页片段时,则以界面形式向用户返回该一个或多个功能性网页片段。
上述为结合用户输入的查询词的长度向用户返回匹配的网页片段的策略示例,在实际应用中可以根据需要指定不同的策略,本发明对此不做限制。
需要说明的是,由于网页片段库保存的网页片段均为代码的形式,在向用户返回时,检索单元20需要对网页片段进行重新渲染才能将其以界面形式展现,渲染可以通过按照W3C规则对网页片段进行重写来实现,可以在向用户返回结果的过程中实时渲染,也可以对返回频次较高的网页片段结果进行渲染后缓存,需要时直接返回缓存的结果。
更进一步地,在根据用户输入的查询词向用户以界面形式返回网页片段的同时,检索单元20还可以以界面形式向用户返回该查询词的搜索结果,即,可以将该检索词通过搜索引擎搜索后得到的前N个结果以界面形式返回给用户,其中N为预设的正整数。可以将前N个搜索结果的超链接、摘要以及URL按照W3C规则包装为HTML片段后以界面形式返回给用户,之后用户可以直接点击其中的超链接来访问对应的网页。
更进一步地,在获取与用户输入的查询词匹配的网页片段的过程中,检索单元20可以结合网页片段所在网页在搜索引擎中的实时热度和历史热度来生成网页片段的权值Weight,例如,可以利用Weight=a×Sim+b×History(page)+c×Now(page)来得到网页片段的权值,其中,Sim为网页片段的描述与用户输入查询词的相似度,History(page)为网页片段所在网页的历史热度,Now(page)为网页片段所在网页的实时热度,a、b、c为预设的系数。
同时,检索单元20还可以进一步在用户输入查询词时,返回相关的联想词,这部分为现有技术,在此不过多赘述。
本发明可以当用户在搜索框内输入查询词时,实时向用户以界面形式返回网页片段,当用户开始输入查询词时,可以在网页片段库中检索匹配的导航网页片段并以界面形式在搜索框下返回给用户,之后用户可以选择导航网页中的导航或者菜单选项,根据用户的选择,在网页片段库中检索对应的功能性网页片段或者浏览性网页片段并以界面形式在搜索框下返回给用户,同时,可以将用户在搜索框中输入的查询词自动变换成与所返回的功能性网页片段或者浏览性网页片段的描述所对应的查询词。
例如,用户在搜索框中输入“汇通”,则以界面形式在搜索框下向用户返回“汇通快运”主页的导航网页片段,之后若用户选择了导航选项中的“网点分布”这一选项,则以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段,同时,搜索框中的查询词也自动由“汇通”变换为“汇通网点分布”,用户也可以从“网点分布”的网页片段中选择返回主页,此时将重新向用户返回汇通快运主页的导航网页片段,同时,搜索框中的查询词也自动由汇通“汇通网点分布”变换为“汇通”。
用户也可以进一步丰富查询词的内容,随着用户所输入的查询词的内容越来越多,可以向用户返回较为精确的功能性网页片段或者浏览性网页片段。例如,用户可以直接输入“汇通网点分布”,则可以直接以界面形式在搜索框下向用户返回汇通快运的“网点分布”功能性网页片段。用户可以通过修改查询词来切换所返回的网页片段,例如,用户输入“汇通”时,向用户返回的是“汇通快运”主页的导航网页片段,用户可以进一步输入“汇通网点分布”,此时,向用户返回的是汇通快运的“网点分布”功能性网页片段,若用户删除“汇通网点分布”中的“网点分布”,则将重新向用户返回“汇通快运”主页的导航网页片段。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于界面返回的搜索方法,其特征在于,从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;该方法包括:
接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
2.根据权利要求1所述的方法,其特征在于,从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
3.根据权利要求2所述的方法,其特征在于,所述导航网页片段的提取包括:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述功能性网页片段的提取包括:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述浏览性网页片段的提取包括:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
4.根据权利要求2或3所述的方法,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
5.根据权利要求2或3所述的方法,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
6.根据权利要求1所述的方法,其特征在于,在将提取的网页片段以及对应的描述存入网页片段库之后,还包括:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
7.根据权利要求1所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体包括:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
8.根据权利要求7所述的方法,其特征在于,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
9.根据权利要求1、7或8所述的方法,其特征在于,在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段。
10.根据权利要求1所述的方法,其特征在于,在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
11.一种基于界面返回的搜索装置,其特征在于,该装置包括:
建库单元,用于从预先获取的网页信息中提取网页片段以及对应的描述并存入网页片段库;
检索单元,用于接收到用户在检索页面输入的查询词时,在所述网页片段库中检索与用户输入的查询词匹配的描述所对应的网页片段,并在所述检索页面返回检索到的网页片段。
12.根据权利要求11所述的装置,其特征在于,所述建库单元从预先获取的网页信息中提取的网页片段包括:
导航网页片段、浏览性网页片段或功能性网页片段。
13.根据权利要求12所述的装置,其特征在于,所述建库单元在提取导航网页片段时,具体执行:提取同一站点下不同页面中编码结构以及内容相同的部分作为导航网页片段;
所述建库单元在提取功能性网页片段时,具体执行:根据网页源代码中的交互标签,提取网页中对应的交互片段作为功能性网页片段;
所述建库单元在提取浏览性网页片段时,具体执行:根据网页的DOM树的结构以及内容,提取网页中对应的浏览性网页片段。
14.根据权利要求12或13所述的装置,其特征在于,当所述导航网页片段中有指向某功能性网页片段或者浏览性网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某功能性网页片段或者浏览性网页片段的对应关系;
当用户在导航网页片段中选择所述指向某功能性网页片段或者浏览性网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的功能性网页片段或者浏览性网页片段。
15.根据权利要求12或13所述的装置,其特征在于,当所述功能性网页片段或者浏览性网页片段中有返回某导航网页片段的选项时,所述建库单元在所述网页片段库中保存该选项的URL与所述某导航网页片段的对应关系;
当用户在功能性网页片段或者浏览性网页片段中选择返回某导航网页片段的选项时,所述检索单元在所述网页片段库中检索并返回与该选项的URL对应的导航网页片段。
16.根据权利要求11所述的装置,其特征在于,所述建库单元在将提取的网页片段以及对应的描述存入网页片段库之后,还执行:
根据所述网页片段库中所保存的网页片段的描述之间的相似度,对所保存的网页片段进行去重处理。
17.根据权利要求11所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段具体执行:
从所述网页片段库中检索出一个或多个权重值高于预设阈值的网页片段,其中,描述与所述用户输入的查询词匹配程度越高的网页片段的权重值越高。
18.根据权利要求17所述的装置,其特征在于,所述网页片段的权重值还结合网页片段所属网页的实时热度和历史热度来获取。
19.根据权利要求11、17或18中任一项所述的装置,其特征在于,所述检索单元在所述网页片段库中检索与所述查询词匹配的描述所对应的网页片段时,采用与所述用户输入的查询词的长度所对应的检索策略在所述网页片段库中检索与所述查询词匹配的所对应的网页片段。
20.根据权利要求11所述的装置,其特征在于,所述检索单元在所述检索页面返回检索到的网页片段的同时,还返回所述用户输入的查询词在搜索引擎中的搜索结果。
CN201310010321.5A 2013-01-11 2013-01-11 一种基于界面返回的搜索方法和装置 Active CN103092945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310010321.5A CN103092945B (zh) 2013-01-11 2013-01-11 一种基于界面返回的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310010321.5A CN103092945B (zh) 2013-01-11 2013-01-11 一种基于界面返回的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN103092945A true CN103092945A (zh) 2013-05-08
CN103092945B CN103092945B (zh) 2019-11-26

Family

ID=48205510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310010321.5A Active CN103092945B (zh) 2013-01-11 2013-01-11 一种基于界面返回的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103092945B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794165A (zh) * 2015-03-26 2015-07-22 百度在线网络技术(北京)有限公司 一种页面展现方法、装置及系统
CN107391535A (zh) * 2017-04-20 2017-11-24 阿里巴巴集团控股有限公司 在文档应用中搜索文档的方法及装置
CN109960757A (zh) * 2019-02-27 2019-07-02 北京搜狗科技发展有限公司 网页检索方法及装置
CN110704735A (zh) * 2019-09-24 2020-01-17 贝壳技术有限公司 一种列表页的前端实现方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763739A (zh) * 2004-10-21 2006-04-26 北京大学 搜索引擎中的基于语义的检索方法
CN101146040A (zh) * 2006-09-12 2008-03-19 国际商业机器公司 分析网站流量的方法和装置
CN101185074A (zh) * 2005-03-31 2008-05-21 谷歌公司 用于事实查询引擎的带有来自信息源的包含查询词语和回答词语的片段的用户界面
US20080306933A1 (en) * 2007-06-08 2008-12-11 Microsoft Corporation Display of search-engine results and list
CN101685453A (zh) * 2008-09-27 2010-03-31 日电(中国)有限公司 交互式评注设备,交互式评注系统及其方法
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102096581A (zh) * 2009-12-10 2011-06-15 华为技术有限公司 生成微件的方法及装置
CN102591904A (zh) * 2007-02-13 2012-07-18 微软公司 使用结构化数据管理网页链接

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763739A (zh) * 2004-10-21 2006-04-26 北京大学 搜索引擎中的基于语义的检索方法
CN101185074A (zh) * 2005-03-31 2008-05-21 谷歌公司 用于事实查询引擎的带有来自信息源的包含查询词语和回答词语的片段的用户界面
CN101146040A (zh) * 2006-09-12 2008-03-19 国际商业机器公司 分析网站流量的方法和装置
CN102591904A (zh) * 2007-02-13 2012-07-18 微软公司 使用结构化数据管理网页链接
US20080306933A1 (en) * 2007-06-08 2008-12-11 Microsoft Corporation Display of search-engine results and list
CN101685453A (zh) * 2008-09-27 2010-03-31 日电(中国)有限公司 交互式评注设备,交互式评注系统及其方法
CN102096581A (zh) * 2009-12-10 2011-06-15 华为技术有限公司 生成微件的方法及装置
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794165A (zh) * 2015-03-26 2015-07-22 百度在线网络技术(北京)有限公司 一种页面展现方法、装置及系统
CN104794165B (zh) * 2015-03-26 2018-08-10 百度在线网络技术(北京)有限公司 一种页面展现方法、装置及系统
CN107391535A (zh) * 2017-04-20 2017-11-24 阿里巴巴集团控股有限公司 在文档应用中搜索文档的方法及装置
CN107391535B (zh) * 2017-04-20 2021-01-12 创新先进技术有限公司 在文档应用中搜索文档的方法及装置
CN109960757A (zh) * 2019-02-27 2019-07-02 北京搜狗科技发展有限公司 网页检索方法及装置
CN110704735A (zh) * 2019-09-24 2020-01-17 贝壳技术有限公司 一种列表页的前端实现方法和装置
CN110704735B (zh) * 2019-09-24 2022-01-28 贝壳技术有限公司 一种列表页的前端实现方法和装置

Also Published As

Publication number Publication date
CN103092945B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN103577597B (zh) 基于当前浏览页面的关键词搜索系统
US8898155B2 (en) Personalized meta-search method and application terminal thereof
CN101539949B (zh) 一种网址补全提示的方法及装置
US8392446B2 (en) System and method for providing vector terms related to a search query
CN103577596B (zh) 基于当前浏览页面的关键词搜索方法及装置
CN104850546B (zh) 移动媒介信息的展示方法和系统
CN101042694B (zh) 在浏览网页时访问父页面的方法
CN101178728A (zh) 一种网址导航的方法和系统
CN102043833A (zh) 一种基于查询词进行搜索的方法和搜索装置
CN102693271A (zh) 一种网络信息推荐方法及系统
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN105677815B (zh) 一种网页书签添加方法及终端
CN104252348B (zh) 一种基于浏览器的网页访问统计方法及装置
CN104077286A (zh) 商品信息的搜索方法及系统
CN103530339A (zh) 移动应用信息推送方法和装置
WO2009031759A1 (en) Method and system for generating search collection of query
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN103279516A (zh) 网络爬虫识别方法
KR20130059738A (ko) 컨텐츠 분석에 따른 어플리케이션 추천 시스템 및 방법
CN105740417A (zh) 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN103092945A (zh) 一种基于界面返回的搜索方法和装置
CN105183881A (zh) 信息查询方法和装置
CN102955859B (zh) 网页内容展现方法和装置
CN103297498A (zh) 基于手机客户端的关联内容推送方法
CN105204806A (zh) 移动终端网页个性化显示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant