CN110362730B - 一种索引建立方法及装置 - Google Patents
一种索引建立方法及装置 Download PDFInfo
- Publication number
- CN110362730B CN110362730B CN201910635949.1A CN201910635949A CN110362730B CN 110362730 B CN110362730 B CN 110362730B CN 201910635949 A CN201910635949 A CN 201910635949A CN 110362730 B CN110362730 B CN 110362730B
- Authority
- CN
- China
- Prior art keywords
- index
- webpage
- search
- access operation
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提出一种索引建立方法及装置。所述方法包括:检测到网页访问操作;若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息。本发明实施例提供的索引建立方法及装置,能够扩大搜索引擎可能检索到的内容。
Description
技术领域
本发明涉及网络技术领域,尤其涉及一种索引建立方法及装置。
背景技术
近年来,随着智能手机的快速普及,移动互联网已经成为网民通过网络获取信息的主要途径。个人移动终端的搜索流量也一度超过了个人电脑(PC,Personal Computer)的搜索流量。在当前这个通过移动终端获取信息的时代,每一家企业都在通过自有APP(Application,应用)占领所处行业的流量入口,搜索引擎也面临着各种巨大的挑战。由于网络生态、内容资源限制、搜索内容的相关性要求等因素的影响,很容易出现非网络生态的自有内容无法索引的情况。搜索引擎可能会遇到可检索到的内容越来越少的情况。
发明内容
本发明实施例提供一种索引建立方法及装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种索引建立方法,包括:
若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;
将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息。
在一种实施方式中,所述索引库包括服务端索引库和客户端索引库,建立访问该网页的索引,包括:
若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引;
若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在所述客户端索引库建立访问该网页的所述索引。
在一种实施方式中,将所述索引存储到索引库中之后,还包括:
接收到搜索请求;
根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果;
根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果;
根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果;
展示所述整合的搜索结果。
在一种实施方式中,展示所述整合的搜索结果,包括:
在第一设定区域展示第一搜索结果,以及在第二设定区域展示第二搜索结果。
在一种实施方式中,建立访问该网页的索引,包括:
提取所述网页的特征,所述特征中包括所述网页中的关键字、摘要、图片中的至少一项;
将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
在一种实施方式中,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
第二方面,本发明提供一种索引建立装置,包括:
操作检测模块:用于检测到网页访问操作;
索引建立模块:用于若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;
索引存储模块:用于将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息。
在一种实施方式中,所述索引库包括服务端索引库和客户端索引库,所述索引建立模块包括:
第一索引单元:用于若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引;
第二索引单元:用于若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在所述客户端索引库建立访问该网页的所述索引。
在一种实施方式中,所述装置还包括:
搜索请求接收模块:用于接收到搜索请求;
第一搜索模块:用于根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果;
第二搜索模块:用于根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果;
整合模块:用于根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果;
展示模块:用于展示所述整合的搜索结果。
在第一设定区域展示第一搜索结果,以及在第二设定区域展示第二搜索结果。
在一种实施方式中,所述索引建立模块包括:
特征提取单元:用于提取所述网页的特征,所述特征中包括所述网页中的关键字、摘要、图片中的至少一项;
关联单元:用于将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
在一种实施方式中,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
第三方面,本发明实施例提供了一种索引建立设备,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备,的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述索引建立方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储索引建立装置所用的计算机软件指令,其包括用于执行上述索引建立方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例可以在用户在访问网页的同时,实现有效可行的网页索引分布式生成,解决了现在业界部分网页不可以索引的问题。避免由于一些限制和引用关系缺失,导致无法索引的结果。对于搜索业务这是获取这部分内容的较可行的方法,为丰富搜索生态内容的核心方法,提升搜索生态的用户体验,最终提升移动设备上搜索引擎业务的商业价值。
上述技术方案中的另一个技术方案具有如下优点或有益效果:本发明实施例能够在建立索引是区分私有页面和非私有页面,解决真实云端索引时站点攻防问题,可以实现索引建立方式从“云端索引”进化为“分布式端索引”。对于数据的处理,业界都认为服务端处理为常态,本发明实施例的思维方式能够基于客户端端的计算实现更有效的,更可靠的,成本更低的系统。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的索引建立方法的流程图。
图2示出根据本发明实施例的索引建立方法的流程图。
图3示出根据本发明实施例的索引建立方法的流程图。
图4示出根据本发明实施例的索引建立方法的流程图。
图5示出根据本发明实施例的索引建立方法的流程图。
图6示出根据本发明实施例的索引建立装置的结构框图。
图7示出根据本发明实施例的索引建立装置的结构框图。
图8A和图8B示出根据本发明示例的索引建立装置示意图。
图9示出根据本发明实施例的索引建立设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的索引建立方法的流程图。如图1所示,该索引建立方法包括:
步骤S11:检测到网页访问操作。
步骤S12:若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引。
步骤S13:将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息。
在本发明实施例中,网页访问操作可以是通过搜索引擎访问网页的操作,或者是通过App访问网页的操作。例如,网页访问操作通过IE(Internet Explore,网络探路者)访问的网页的操作,也可以是通过微信、邮箱、新闻、炒股软件、支付软件、微博、地图等APP访问网页的操作。对于操作者访问网页的操作,并非所有相应的网页均能够自建立索引或者并非所有相应的网页均需要自建立索引,为了提高索引库中存储的索引的有效性,对满足预设的自建立索引的条件的网页建立索引。
在具体实施例中,索引库可以位于本地或者服务器端。
互联网内网页之间都有引用关系,搜索引擎才能爬取到内容,如果一个内容是没有被其它页面的引用(如无网页引用,APP内有引用关系,但爬虫无法获取关系),那么这个页面就不会被收录。搜索引擎是Web(网络)生态的产物,在现是自有生态较为严重的移动互联网时代,各家企业的APP都在打造自已的流量入口及内容生态,很容易出现非Web生态的非自有内容无法索引的情况。本发明实施例通过对访问网页的操作进行检测,对可自建立索引的网页建立索引,存储到索引库中,从而在下次使用时,能够直接使用索引库中的索引进行搜索,从而扩大搜索引擎的搜索范围,使得搜索引擎能够面临互联网生态等因素的变动。
在本发明实施例中,建立访问该网页的索引包括:
提取所述网页的特征;
根据所述网页的特征,建立访问所述网页的索引。
图2示出根据本发明实施例的索引建立方法的流程图。本实施例中的步骤S11-S12可以参见上述实施例中的相关描述,在此不再赘述。
与上述实施例的不同之处在于,如图2所示,所述索引库包括服务端索引库和客户端索引库,建立访问该网页的索引,包括:
步骤S21:若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引。
步骤S22:若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在所述客户端索引库建立访问该网页的所述索引。
在本发明实施例中,整个搜索引擎数据收信过程是基于robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。也可以理解为,如果某个页面是不允许搜索引擎爬取,那么是不允许入索引库的。若所述网页访问操作对应的网页为非私有页面,且依据爬虫协议Robots允许搜索,则执行爬虫操作,在所述服务端索引库建立访问该网页的所述索引。
在实际操作中,某些私有页面中存在不能够外泄的隐私数据,例如个人邮箱中的网页链接可能依照法律规定不允许作为公共资源进行搜索。同时,有些非私有页面,例如某些微博页面等,根据使用者的设定等配置,也不允许搜索引擎搜索。因此,对非私有且允许搜索的页面,在服务端索引库建立索引,允许作为公众资源进行搜索。对于私有页面,为了保护隐私,仅仅在客户端索引库建立访问该网页的索引。在后续的搜索过程中,只有该客户端的所有者有权利对客户端索引库存储的索引进行使用。
在其它示例中,可在服务端建立针对个人的索引库,搜索者在访问权限验证通过的情况下,可访问服务端的个人索引库。
图3示出根据本发明实施例的索引建立方法的流程图。本实施例中的步骤S11-S13可以参见上述实施例中的相关描述,在此不再赘述。
与上述实施例的不同之处在于,如图3所示,将所述索引存储到索引库中之后,还包括:
步骤S31:接收到搜索请求。
步骤S32:根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果。
步骤S33:根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果。
步骤S34:根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果。
步骤S35:展示所述整合的搜索结果。
在一种可能的实施方式中,考虑到一个客户端可能被不同的操作者使用的情况,根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果之前,还包括:
检测当前时刻该客户端对客户端索引库的访问权限;
若当前时刻该客户端对客户端索引库具有访问权限,则进入根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果的步骤;
若当前时刻该客户端对客户端索引库不具有访问权限,则获取访问权限;然后根据获取的访问权限,进入根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果的步骤。
在一种实施方式中,建立访问该网页的索引,包括:
提取所述网页的特征,所述特征中包括所述网页中的关键字、摘要、图片中的至少一项;
将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
在具体操作中,在客户端索引库建立访问该网页的所述索引之后,检查客户端索引库是否已经存在相同的索引,若不存在,则将访问该网页的所述索引存储到客户端索引库中。在具体实施例中,网页的特征包括关键字、URL信息(Uniform Resource Locator,统一资源定位符)、图片信息等。
在一种实施方式中,展示所述整合的搜索结果,包括:
在第一设定区域展示第一搜索结果,以及在第二设定区域展示第二搜索结果。
在具体实施例中,可以通过其它方式区分第一搜索结果和第二搜索结果,例如,采用不同颜色、字体的字符显示第一搜索结果和第二搜索结果等。也可以设置多个展示区,每个展示区分别展示云端及本地检索的结果。有统一的父展示窗口整合多展示区的展示,展示区之间具有交互及联动能力。
在一种实施方式中,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
在本发明具体实施例中,从搜索结果页导流打开的网页为搜索引擎可搜索的页面,说明该网页已有索引存在,无需重新建立索引。比如在百度APP(Application,应用)中搜索关键词,搜索出一系列关于此关键词的结果,任选一个结果点击打开,跳转到其它页面,该过程即为导流打开。用户在其它应用中打开百度搜索页面,例如在360浏览器中打开百度搜索页面,搜索某关键词,搜索出一些列关于此关键词的结果,任选一个结果点击打开,跳转到一个落地页,该过程也为导流打开。有些网页访问操作对应的网页不属于从搜索结果页导流打开的网页,例如从社交软件打开的某些网页。再如,在客户端本地打开的邮箱应用的页面也不属于从搜索结果页导流打开的网页。这些网页符合自建立索引的条件。此外,有些网页中可能存在不安全因素,这些网页不符合安全性要求,不能被加入访问白名单内,因而不宜建立索引。因此,在白名单中的网页符合自建立索引的条件。当然,也可以建立黑名单将不在黑名单中的网页符合自建立索引的条件。
在本发明一种示例中,索引建立方法包括如图4所示的步骤:
步骤S41:检测到访问网页的操作,且检测到网页加载完成。
步骤S42:进行网页分析,生成与网页相关的索引信息。在具体操作中,对网页进行分析基于W3C(World Wide Web Consortium,万维网联盟)标准,对于HTML(Hyper TextMarkup Language,超级文本标记语言),HTML5,JS(JavaScript),CSS(Cascading StyleSheets,层叠式样表),图片,文本,音视频,动画等文件格式的解析。
步骤S43:将网页信息上传到服务端进行验证,判断该网页的端的索引结果是否可以分享给其它的搜索用户。
步骤S44:若该网页的端的索引结果可以分享给其他的用户,则将该网页的索引信息提交到服务端,合并到服务端索引库中。从而新建的索引可以被其他搜索用户使用。
步骤S45:若该网页的端的索引结果不可以分享给其他的用户,则将该网页的索引信息提交到客户端,合并到客户端索引库中。从而新建的索引只能被该客户端的用户使用。
步骤S46:检测到搜索请求。
步骤S47:根据搜索请求,对服务端索引库进行搜索,获得第一搜索结果。
步骤S48:根据搜索请求,对客户端的索引库进行搜索,获得第二搜索结果。
步骤S49:展示第一搜索结果和第二搜索结果。
在本发明另一种示例中,索引建立方法包括如图5所示的步骤:
步骤S51:检测到用户a访问网页www.xxxxxxxx.com/xxxxx.html的操作。
步骤S52:客户端向服务端提交浏览页面的信息。
步骤S53:服务端收到浏览页面的信息后,判断该页面是否满足自建立索引的条件。具体判断条件可以包括:当前页面是否从搜索结果页导流打开,和/或,当前页面是否在自有的索引白名单内。如果当前页面从搜索结果页导流打开,则当前页面已经有相关索引,无需再次建立索引。如果当前页面不在自有的索引白名单内,则当前页面页面存在不安全因素或者由于其它原因而不能够建立索引。若当前页面并非从搜索结果页导流打开,和/或当前页面在自有的索引白名单内,则满足自建立索引的条件。
步骤S54:若该网页为非私有页面,且符合Robots协议要求,则在云端对该网页进行抓取,并建立该网页的索引。在具体实施例中,服务端可以云端。
步骤S55:若该网页为私有页面,或者网页虽为公有页面,但不符合Robots协议要求,则在客户端建立该网页的索引。具体包括:从该网页提取一组关键字,“李xx”、“林xx”、“漂洋过海来看你”。根据提取的关键词,在客户端获取该网页的摘要信息等特征,将特征与网页信息进行关联,得到访问该网页的索引。检查客户端索引库中是否已存在该索引,若不存在,则将该索引存入客户端索引库中。
在利用索引建立方法建立索引之后,搜索过程的示例可以包括:当用户b搜索“李xx”时,从客户端本地的索引库中检索到该索引,连同从服务端索引库中检索到的结果在客户端进行展示。具体可以分多个展示区进行展示,在不同的展示区分别展示云端及本地检索的结果。有统一的父展示窗口整合多展示区的展示,交互及联动能力。或者在单一展示区进行展示,将云端及本地检索结果,统一成一种数据格式,整合数据,在同一展示区展示,解析及交互。
具体操作中,可采用NLP(Natural Language Processing,自然语言处理)技术对网页进行抓取、抽取关键字、生成摘要等。
本发明提供一种索引建立装置,结构如图6所示,包括:
操作检测模块61:用于检测到网页访问操作;
索引建立模块62:用于若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;
索引存储模块63:用于将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息。
在一种实施方式中,所述索引库包括服务端索引库和客户端索引库,参照图7所示,所述索引建立模块包括:
第一索引单元71:用于若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引;
第二索引单元72:用于若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在所述客户端索引库建立访问该网页的所述索引。
在一种实施方式中,所述装置还包括:
搜索请求接收模块:用于接收到搜索请求;
第一搜索模块:用于根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果;
第二搜索模块:用于根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果;
整合模块:用于根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果;
展示模块:用于展示所述整合的搜索结果。
在第一设定区域展示第一搜索结果,以及在第二设定区域展示第二搜索结果。
在一种实施方式中,所述索引建立模块包括:
特征提取单元:用于对当前加载的网页进行分析,提取所述网页的特征;还用于对网页的信息,包括对标题,正文,段落的语义分析,词法分析等,对图片的关键特征提取等,这些信息用于确定索引信息;
关联单元:用于将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
在本发明实施例中,根据索引建立位置的不同,特征提取单元还可以包括客户端特征提取单元、服务端特征提取单元。关联单元还可以包括客户端关联单元、服务端关联单元。
在一种实施方式中,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8A、8B为本发明示例的索引建立装置示意图。本发明实施例所提供的索引建立装置可部署在客户端或者服务端。或者同时部署在客户端和服务端。如图8A所示,本示例中的索引建立装置包括部署在客户端的下述模块:
端索引状态查询模块81:用于实现向服务端查询当前浏览的网页是否需要端上自建索引,同时也区分当前浏览的网页是否已经为搜索结果页打开,如为搜索结果页打开,那么不再进行状态查询。
网页分析模块82:用于实现对当前加载的网页进行分析,提取页面元素节点内容。
网页特征提取模块83:用于实现对网页的元素内容进行特征提取,包括对标题,正文,段落的语义分析,词法分析等;对图片的关键特征提取等,最终确定索引信息。
特征关连模块84:用于实现将该网页的特征信息与网页进行关连,将索引信息(关键字,摘要,url等信息)存储到客户端本地。
索引存储模块85:用于实现将客户端本地索引网页信息存储到客户端索引库。
仍然参照图8A,本发明实施例的索引建立装置还包括部署在服务端的下述模块:
端索引控制模块86:用于实现对客户端当前索引的网页的索引信息是否可以为云端索引的的判定。如私有页面,否符合Robots协议,都不云端索引,应该交给客户端进行索引。
云端索引模块87:用于实现对网页进行抓取及入库,即爬虫工作。
端索引存储模块88:用于实现可以共享的端索引网页索引信息存储到服务端索引库,当其他用户为其他用户索引复用。
本示例中的端索引状态查询模块81、网页分析模块82、网页特征提取模块83、特征关连模块84、端索引控制模块86和云端索引模块87在功能上相当于本发明实施例中的索引建立模块。进一步的,端索引控制模块86和云端索引模块87在功能上相当于本发明实施例的第一索引单元。网页特征提取模块83和特征关连模块84在功能上相当于本发明实施例的第二索引单元。
进一步的,在本发明示例中,索引建立装置还可以包括部署在服务端的下述模块:
端本地数据检索模块89:用于实现对用户输入的关键字,进行客户端本地索引的网页库进行关键字检索
云端检索模块810:用于实现将关键字,提交到云端进和检索。
结果整合模块811:用于实现将本地检索结果和云端检索结果进行整合展现的能力,展现方式分为多展示区展示和单一展示区展示两种。
多个展示区可以在每个展示区分别展示云端及本地检索的结果。有统一的父展示窗口整合多展示区的展示,窗口之间具有交互及联动能力。
单一展示区可以将云端及本地检索结果,统一成一种数据格式,整合数据,同一展示区展示,在同一展示区解析及交互。
在图8B所示的示例中,端本地数据检索模块89功能上相当于本发明实施例的第一搜索模块。云端检索模块810功能上相当于本发明实施例的第二搜索模块。结果整合模块811功能上相当于本发明实施例的整合模块和展示模块。
图9示出根据本发明实施例的索引建立设备的结构框图。如图9所示,该设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的索引建立方法。所述存储器910和处理器920的数量可以为一个或多个。
该设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种索引建立方法,其特征在于,包括:
检测到网页访问操作;
若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;
将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息;其中,所述索引库包括服务端索引库和客户端索引库;
接收到搜索请求;
根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果;
根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果;
根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果;
展示所述整合的搜索结果;
其中,建立访问该网页的索引包括:
若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引;
若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在客户端索引库建立访问该网页的所述索引。
2.根据权利要求1所述的方法,其特征在于,建立访问该网页的索引,包括:
提取所述网页的特征,所述特征中包括所述网页中的关键字、摘要、图片中的至少一项;
将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
3.根据权利要求1所述的方法,其特征在于,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
4.一种索引建立装置,其特征在于,包括:
操作检测模块:用于检测到网页访问操作;
索引建立模块:用于若所述网页访问操作对应的网页满足预设的自建立索引的条件,则建立访问该网页的索引;
索引存储模块:用于将所述索引存储到索引库中,所述索引包括所述网页的特征和与所述特征关联的地址信息;其中,所述索引库包括服务端索引库和客户端索引库;
搜索请求接收模块:用于接收到搜索请求;
第一搜索模块:用于根据所述搜索请求和所述服务端索引库中的索引,获得第一搜索结果;
第二搜索模块:用于根据所述搜索请求和所述客户端索引库中的索引,获得第二搜索结果;
整合模块:用于根据所述第一搜索结果和所述第二搜索结果,获得整合的搜索结果;
展示模块:用于展示所述整合的搜索结果;
其中,索引建立模块包括:
第一索引单元:用于若所述网页访问操作对应的网页为非私有页面,且根据爬虫协议Robots允许搜索,则在所述服务端索引库建立访问该网页的所述索引;
第二索引单元:用于若所述网页访问操作对应的网页为私有页面,或者所述网页访问操作对应的网页为非私有页面且根据爬虫协议Robots不允许搜索,则在客户端索引库建立访问该网页的所述索引。
5.根据权利要求4所述的装置,其特征在于,所述索引建立模块包括:
特征提取单元:用于提取所述网页的特征,所述特征中包括所述网页中的关键字、摘要、图片中的至少一项;
关联单元:用于将所述特征关联所述网页的地址信息,得到访问该网页的所述索引。
6.根据权利要求4所述的装置,其特征在于,所述预设的自建立索引的条件,包括:
所述网页访问操作对应的网页不属于从搜索结果页导流打开的网页;
所述网页访问操作对应的网页为根据网页访问白名单或黑名单可访问的网页。
7.一种索引建立设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的方法。
8.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635949.1A CN110362730B (zh) | 2019-07-15 | 2019-07-15 | 一种索引建立方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635949.1A CN110362730B (zh) | 2019-07-15 | 2019-07-15 | 一种索引建立方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362730A CN110362730A (zh) | 2019-10-22 |
CN110362730B true CN110362730B (zh) | 2022-07-12 |
Family
ID=68219376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635949.1A Active CN110362730B (zh) | 2019-07-15 | 2019-07-15 | 一种索引建立方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362730B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5063568B2 (ja) * | 2008-11-28 | 2012-10-31 | ヤフー株式会社 | 携帯端末向けのウェブページの検索に用いられるインデックスを作成する検索制御装置及びインデックス作成方法 |
CN101551813A (zh) * | 2009-05-13 | 2009-10-07 | 腾讯科技(深圳)有限公司 | 网络连接设备、搜索设备及搜集搜索引擎数据源的方法 |
CN106156193A (zh) * | 2015-04-22 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 搜索以及收藏网址的方法、浏览器、服务器和系统 |
-
2019
- 2019-07-15 CN CN201910635949.1A patent/CN110362730B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110362730A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776447B2 (en) | Digital communications platform for webpage overlay | |
JP7330891B2 (ja) | インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法 | |
US9223895B2 (en) | System and method for contextual commands in a search results page | |
CN106911693B (zh) | 用于检测网页内容劫持的方法、装置和终端设备 | |
CN109768992B (zh) | 网页恶意扫描处理方法及装置、终端设备、可读存储介质 | |
CN106528657A (zh) | 浏览器跳转至应用程序的控制方法及装置 | |
CN105868290B (zh) | 一种展现搜索结果的方法及装置 | |
US11989247B2 (en) | Indexing access limited native applications | |
CN106339380A (zh) | 常见问题信息的推荐方法及装置 | |
US10169477B2 (en) | Method and system for rendering a web page free of inappropriate URLs | |
US20200336498A1 (en) | Method and apparatus for detecting hidden link in website | |
US8140508B2 (en) | System and method for contextual commands in a search results page | |
EP3745292A1 (en) | Hidden link detection method and apparatus for website | |
KR20180074774A (ko) | 악의 웹 사이트 식별 방법, 장치 및 컴퓨터 기억매체 | |
US9465814B2 (en) | Annotating search results with images | |
CN106874502A (zh) | 一种视频搜索的方法、装置及终端 | |
CN113032655A (zh) | 一种暗网电子数据提取固定方法 | |
KR102169143B1 (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
Ham et al. | Big Data Preprocessing Mechanism for Analytics of Mobile Web Log. | |
KR102214990B1 (ko) | 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법 | |
CN110362730B (zh) | 一种索引建立方法及装置 | |
CN109246069B (zh) | 网页登录方法、装置和可读存储介质 | |
Zhou et al. | An analysis of urls generated from javascript code | |
US20090248673A1 (en) | Method of sorting web pages, search terminal and client terminal | |
CN113656737B (zh) | 网页内容展示方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |