CN103246664A - 网页检索方法和装置 - Google Patents

网页检索方法和装置 Download PDF

Info

Publication number
CN103246664A
CN103246664A CN2012100268124A CN201210026812A CN103246664A CN 103246664 A CN103246664 A CN 103246664A CN 2012100268124 A CN2012100268124 A CN 2012100268124A CN 201210026812 A CN201210026812 A CN 201210026812A CN 103246664 A CN103246664 A CN 103246664A
Authority
CN
China
Prior art keywords
attribute
webpage
bit
retrieved
scanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100268124A
Other languages
English (en)
Other versions
CN103246664B (zh
Inventor
曾剑元
孔维青
杭海裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210026812.4A priority Critical patent/CN103246664B/zh
Priority to TW101117555A priority patent/TWI564737B/zh
Priority to US13/759,774 priority patent/US9262454B2/en
Priority to EP13706792.2A priority patent/EP2812815B1/en
Priority to PCT/US2013/024842 priority patent/WO2013119603A1/en
Priority to JP2014555847A priority patent/JP5875711B2/ja
Publication of CN103246664A publication Critical patent/CN103246664A/zh
Priority to HK13110915.6A priority patent/HK1183542A1/zh
Application granted granted Critical
Publication of CN103246664B publication Critical patent/CN103246664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网页检索方法和装置,其中,该方法包括:根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;根据待检索网页的属性标识和查询区间得到待检索的属性值范围;判断待检索的属性值范围与在接收查询语句的系统中预先建立的多个索引区间是否存在交集;在存在交集的索引区间下的所有网页中获取属性标识为待检索网页的属性标识、且属性值与查询区间存在交集的网页;将获取到的网页作为检索结果返回。本申请解决了现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题,达到了减少数据冗余,节约系统资源的效果,进一步的也实现了对属性的范围检索。

Description

网页检索方法和装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页检索方法和装置。
背景技术
在互联网搜索技术领域中,以电子商务网站内的搜索为例,目前,在电子商务搜索引擎中对各个产品的搜索主要是针对诸如价格、生产日期等每个商品都具有的属性,然而,对于诸如“内径”、“外径”这样的概念,可能只在“轴承”这样的特殊商品里才具有意义,因此很难作为一个通用属性进行查询。在搜索引擎的系统中存储有多个网页,每个网页是对一个标准产品的全方位的描述,其记录有比如价格、标题、生产日期等通用属性以及一些用户自定义属性,也称为非通用属性,例如,价格、产地等所有商品都具有的属性叫通用属性,而如内径、外径、厚度等某些特定商品才具有的属性叫非通用属性。
现有技术中基于属性的产品检索方案主要是采用对各个网页中都记载的属性进行检索,其中,现有技术中采用XML语言来存储格式化的属性信息,所谓格式化指的是:每个网页记载的属性的个数是相同的。举例而言,假设已存储在系统中的网页A、B、C用于描述产品A、B、C,其中,产品A对应有两个属性:价格和生产日期;产品B对应有两个属性:价格和生产日期;产品C对应有三个属性:价格、生产日期以及内径。由于产品C对应有产品A和B不具有的非通用属性“内径”,因此为了实现格式化地存储,需要在网页A和B中增加字段来记录属性“内径”,其中,可以利用“0”值来表示该网页描述的产品不具有该属性,例如,采用以下格式来描述产品A、B、C:
网页A:“价格”,100;“日期”,2001-1-1;“内径”,0;
网页B:“价格”,200;“日期”,2002-1-1;“内径”,0;
网页C:“价格”,300;“日期”,2003-1-1;“内径”,50。
通过上述格式化地存储方案,使得在需要基于某一个属性进行产品检索时,可以只将该属性作为查询入口进行查询。例如,当需要基于内径这个非通用属性进行产品检索时,可以对属性“内径”建立索引区间,例如,“1-50”、“50-100”等。然后,根据上述的索引区间对每个网页记录的字段“内径”进行查询。
针对上述存储方案,当新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,需要为对每个现有的网页增加对应的字段来记录该属性,以便实现格式化地存储,使得可以基于该新增的属性进行检索。例如,系统中新存储的产品D对应有属性:“价格”、“日期”、“内径”和“外径”,则需要在网页A、B和C中增加字段来记录“外径”属性,其中,可以利用“0”值来表示该网页描述的产品不具有该属性,具体地记录可以描述如下:
网页A:“价格”,100;“日期”,2001-1-1;“内径”,0;“外径”,0;
网页B:“价格”,200;“日期”,2002-1-1;“内径”,0;“外径”,0;
网页C:“价格”,300;“日期”,2003-1-1;“内径”,50;“外径”,0;
网页D:“价格”,400;“日期”,2004-1-1;“内径”,60;“外径”,100。
由于新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,需要对现有网页均增加对应的字段来记录该属性,这样在系统中存储了大量无用的用于表示属性的字段,从而造成了数据的大量冗余以及系统资源的浪费。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页检索方法和装置,以至少解决现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题。
根据本申请的一个方面,提供了一种网页检索方法,包括:根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;根据待检索网页的属性标识和查询区间得到待检索的属性值范围;判断待检索的属性值范围与在接收查询语句的系统中预先建立的多个索引区间是否存在交集;在存在交集的索引区间下的所有网页中获取属性标识为待检索网页的属性标识、且属性值与查询区间存在交集的网页;将获取到的网页作为检索结果返回。
优选地,在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,网页检索方法还包括:对于系统中待扫描的网页执行以下步骤:获取待扫描的网页的属性标识和属性值;根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围;判断待扫描的网页的属性值范围与预先建立的多个索引区间是否存在交集;将存在交集的索引区间与待扫描的网页之间建立映射关系。
优选地,根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围的步骤包括:将待扫描的网页的属性标识与属性值进行哈希运算得到待扫描的网页的属性值范围。
优选地,根据待检索网页的属性标识和查询区间得到待检索的属性值范围的步骤包括:将待检索网页的属性标识与查询区间进行哈希运算得到待检索的属性值范围。
优选地,属性值为离散值或预定的数值范围。
根据本申请的另一方面,提供了一种网页检索装置,包括:第一获取单元,用于根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;第一计算单元,用于根据待检索网页的属性标识和查询区间得到待检索的属性值范围;第一判断单元,用于判断待检索的属性值范围与在接收查询语句的系统中预先建立的多个索引区间是否存在交集;第二获取单元,用于在存在交集的索引区间下的所有网页中获取属性标识为待检索网页的属性标识、且属性值与查询区间存在交集的网页;返回单元,用于将获取到的网页作为检索结果返回。
优选地,网页检索装置还包括:第三获取单元,用于在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,获取待扫描的网页的属性标识和属性值;第二计算单元,用于根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围;第二判断单元,用于判断待扫描的网页的属性值范围与预先建立的多个索引区间是否存在交集;建立单元,用于将存在交集的索引区间与待扫描的网页之间建立映射关系。
优选地,第二计算单元包括:第一哈希模块,用于将待扫描的网页的属性标识与属性值进行哈希运算得到待扫描的网页的属性值范围。
优选地,第一计算单元包括:第二哈希模块,用于将待检索网页的属性标识与查询区间进行哈希运算得到待检索的属性值范围。
优选地,属性值为离散值或预定的数值范围。
通过本申请所保护的技术方案,将待检索网页的属性标识作为查询条件之一,根据待检索网页的属性标识和查询区间得到待检索的属性值范围,从而进行第一次粗略筛选,即在系统预定的索引区间中选择与待检索的属性值范围存在交集的索引区间,并筛选出交集的索引区间所对应的网页,然后进行第二次精细筛选,在筛选出来的网页中查找属性标识和查询区间都满足查询条件的网页作为检索结果进行输出。在上述的技术方案中,系统预先建立的索引区间不再是针对哪种属性单独建立的,而是将属性标识作为建立索引区间时考虑的因素之一,这样使得建立的索引区间是针对多个属性的,即可以在由具有多个不同属性的网页组成的集合中进行统一查询,而不是如现有技术中那样只能在同一个属性中进行查询,使得在新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,不需要为对每个现有的网页增加对应的字段来记录该属性,从而解决了现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题,达到了减少数据冗余,节约系统资源的效果,进一步的也实现了对属性的范围检索。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页检索系统的一种优选结构框图;
图2是根据本申请实施例的网页检索装置的一种优选结构框图;
图3是根据本申请实施例的网页检索装置的另一种优选结构框图;
图4是根据本申请实施例的网页检索装置的又一种优选结构框图;
图5是根据本申请实施例的网页检索装置的又一种优选结构框图;
图6是根据本申请实施例的网页检索方法的一种优选流程图;
图7是根据本申请实施例的网页检索方法的另一种优选流程图;
图8是根据本申请实施例的网页检索方法的又一种优选流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在描述本申请的各实施例的进一步细节之前,将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图1中的网页检索系统100至少包括:一个网站的服务器102以及一个或多个客户端104。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端104可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“网页检索系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。网页检索系统100甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在网页检索系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在网页检索系统100上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
实施例1
图2是根据本申请实施例的网页检索装置200的一种优选的结构框图,优选的,本实施例中的网页检索装置200位于服务器102上或者客户端104上。
优选的,如图2所示的网页检索装置200可以包括:
1)第一获取单元202,用于根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;例如,通过用户对用于检索的网页提供的下拉菜单进行选择,可以获得查询语句,假设用户选择在“价格”属性中查询“25-60”的产品,则可以根据预先定义的映射关系来获得属性“价格”对应的属性标识id=1,并得到该属性标识下的查询区间“25-60”;
2)第一计算单元204,用于根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围;优选的,可以通过对待检索网页的属性标识和查询区间进行乘法运算得到待检索的属性值范围,例如,在属性标识id=1、查询区间“25-60”时,通过乘法运算可以得到待检索的属性值范围为“25-60”;
3)第一判断单元206,判断所述待检索的属性值范围与在接收所述查询语句的系统中预先建立的多个索引区间是否存在交集;假设系统预先将用于多个属性检索的索引区间划分为“0-15”、“16-50”、“51-100”、“101-300”等几个区间,则待检索的属性值范围“25-60”与索引区间“16-50”、“51-100”存在交集;
4)第二获取单元208,用于在存在交集的所述索引区间下的所有网页中获取属性标识为所述待检索网页的属性标识、且属性值与所述查询区间存在交集的网页;例如,可以在索引区间“16-50”、“51-100”下的所有网页中获取属性标识为id=1、且属性值与查询区间“25-60”存在交集的网页;
5)返回单元210,用于将获取到的网页作为检索结果返回。
在上述优选实施方式中,将待检索网页的属性标识作为查询条件之一,根据待检索网页的属性标识和查询区间得到待检索的属性值范围,从而进行第一次粗略筛选,即在系统预定的索引区间中选择与待检索的属性值范围存在交集的索引区间,并筛选出交集的索引区间所对应的网页,然后进行第二次精细筛选,在筛选出来的网页中查找属性标识和查询区间都满足查询条件的网页作为检索结果进行输出。在上述的技术方案中,系统预先建立的索引区间不再是针对哪种属性单独建立的,而是将属性标识作为建立索引区间时考虑的因素之一,这样使得建立的索引区间是针对多个属性的,即可以在由具有多个不同属性的网页组成的集合中进行统一查询,而不是如现有技术中那样只能在同一个属性中进行查询,使得在新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,不需要为对每个现有的网页增加对应的字段来记录该属性,从而解决了现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题,达到了减少数据冗余,节约系统资源的效果,进一步的也实现了对属性的范围检索。
本申请还对索引区间和待扫描网页之间的映射关系的建立进行了改进,以便达到对网页中非通用属性的范围的检索技术效果。为了实现上述目的,具体地,在本申请各个优选的实施例的基础上,如图3所示,该网页检索装置200还包括:第三获取单元302,用于在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,获取所述待扫描的网页的属性标识和属性值;第二计算单元304,用于根据所述待扫描的网页的属性标识和属性值得到所述待扫描的网页的属性值范围;第二判断单元306,用于判断所述待扫描的网页的属性值范围与所述预先建立的多个索引区间是否存在交集;建立单元308,用于将存在交集的索引区间与所述待扫描的网页之间建立映射关系。
本申请还对第二计算单元304进行了改进,以便达到通过简单的计算方法获取网页的属性值范围技术效果。为了实现上述目的,具体地,在本申请各个优选的实施例的基础上,如图4所示,第二计算单元304包括但不限于:第一哈希模块402,用于将所述待检索网页的属性标识与所述查询区间进行哈希运算得到所述待检索的属性值范围。
本申请还对第一计算单元204进行了改进,以便达到通过简单的计算方法查询语句的属性值范围技术效果。为了实现上述目的,具体地,在本申请各个优选的实施例的基础上,如图5所示,第一计算单元204包括但不限于:第二哈希模块502,用于将所述待检索网页的属性标识与所述查询区间进行哈希运算得到所述待检索的属性值范围。
优选的,属性值为离散值或预定的数值范围。
实施例2
在图1-图5所示的优选的网页检索装置的基础上,本申请还提供了一种优选的网页检索方法。如图6所示,该方法可以包括以下步骤:
S602:根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;例如,通过用户对用于检索的网页提供的下拉菜单进行选择,可以获得查询语句,假设用户选择在“价格”属性中查询“25-60”的产品,则可以根据预先定义的映射关系来获得属性“价格”对应的属性标识id=1,并得到该属性标识下的查询区间“25-60”;
S604:根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围;优选的,可以通过对待检索网页的属性标识和查询区间进行乘法运算得到待检索的属性值范围,例如,在属性标识id=1、查询区间“25-60”时,通过乘法运算可以得到待检索的属性值范围为“25-60”;
S606:判断所述待检索的属性值范围与在接收所述查询语句的系统中预先建立的多个索引区间是否存在交集;假设系统预先将用于多个属性检索的索引区间划分为“0-15”、“16-50”、“51-100”、“101-300”等几个区间,则待检索的属性值范围“25-60”与索引区间“16-50”、“51-100”存在交集;
S608:在存在交集的所述索引区间下的所有网页中获取属性标识为所述待检索网页的属性标识、且属性值与所述查询区间存在交集的网页;例如,可以在索引区间“16-50”、“51-100”下的所有网页中获取属性标识为id=1、且属性值与查询区间“25-60”存在交集的网页;
S610:将获取到的网页作为检索结果返回。
在上述优选实施方式中,将待检索网页的属性标识作为查询条件之一,根据待检索网页的属性标识和查询区间得到待检索的属性值范围,从而进行第一次粗略筛选,即在系统预定的索引区间中选择与待检索的属性值范围存在交集的索引区间,并筛选出交集的索引区间所对应的网页,然后进行第二次精细筛选,在筛选出来的网页中查找属性标识和查询区间都满足查询条件的网页作为检索结果进行输出。在上述的技术方案中,系统预先建立的索引区间不再是针对哪种属性单独建立的,而是将属性标识作为建立索引区间时考虑的因素之一,这样使得建立的索引区间是针对多个属性的,即可以在由具有多个不同属性的网页组成的集合中进行统一查询,而不是如现有技术中那样只能在同一个属性中进行查询,使得在新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,不需要为对每个现有的网页增加对应的字段来记录该属性,从而解决了现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题,达到了减少数据冗余,节约系统资源的效果,进一步的也实现了对属性的范围检索。
本申请还对索引区间和网页之间的映射关系的建立进行了改进,以便达到索引区间和网页之间的映射关系的建立不再仅仅依赖于产品的属性值的目的。为了实现上述目的,具体地,在本申请各个优选的实施例的基础上,在从查询语句中获取查询语句的属性标识和该属性标识下的查询区间之前,可以对于每个待扫描的网页执行以下如图7所示的步骤从而得到索引和网页之间的映射关系:
S702:获取待扫描的网页的属性标识和属性值;优选的,待扫描的网页可以是网站服务器(可以称为系统)中存储的网页。
S704:根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围;
S706:判断待扫描的网页的属性值范围与系统预先建立的多个索引区间是否存在交集;
S708:将存在交集的索引区间与待扫描的网页之间建立映射关系。
举例而言,系统预先将用于多个属性检索的索引区间划分为“0-15”、“16-50”、“51-100”、“101-300”等几个区间,待扫描的网页A、B、C中都具有价格的属性,网页A还具备内径的属性。如表1所示,假设价格的属性标识id=1,内径的属性标识id=2;网页A中价格的属性值为5-10,网页A中内径的属性值为45-60,网页B中价格的属性值为40-55,网页C中价格的属性值为100。同时,网页A中存有内径的属性标识(id=2),属性值为45-60。
在本优选的实施例中,采用待扫描的网页的属性标识和属性值相乘得到属性值范围,判断得到的属性值范围是否和索引区间存在交集,将属性值范围和索引区间之间存在交集的网页和对应的索引区间之间建立映射关系,通过上述步骤可以得到表2所示的对应关系,例如,网页A的价格的属性值范围为5-10,网页A的内径的属性值范围为90-120,因此,网页A的属性值范围与索引区间“0-15”、“51-100”以及“101-300”存在交集,因此,建立索引区间“0-15”、“51-100”以及“101-300”与网页A的映射关系。上述的映射关系将用于后续的检索步骤。
此处以属性标识(id)乘以属性值作为属性值范围为例进行说明,但本申请不限于此。
表1
表2
  索引区间   区间中包含的网页
  “0-15”   网页A
  “16-50”   网页B
  “51-100”   网页A、网页B、网页C
  “101-300”   网页A
优选的,采用位图索引的形式建立索引区间和网页之间的映射关系,位图索引的索引文件可以包括:索引头信息部分、区间信息部分以及索引部分。位图索引的数据文件是一个数组,数组的每个元素是一个区间对应的位图索引的位数组。数组的每个元素(位数组)的长度是一样的,至少是被索引的网页数量。
其中,索引头信息部分包括已经建立索引的网页的个数、索引区间的个数等位图索引文件的描述信息;区间信息部分是一个数组,优选的,数组的每个元素包含四个字段,分别是该索引区间的最小值(64bits)、该索引区间的最大值(64bits)、此索引区间中包含的网页数量、此索引区间的位图索引数据在位图索引的数据文件中的偏移量。索引部分采用数组的形式描述,例如,如上所述,在存在三个网页A、B和C的情况下,每个索引区间对应有由3个比特组成的索引部分,其中,每个索引部分从左至右的第1个比特表示网页A是否落在该索引区间内,每个索引部分从左至右的第2个比特表示网页B是否落在该索引区间内,每个索引部分从左至右的第3个比特表示网页C是否落在该索引区间内,比特的值为“0”标识对应的网页不落在该索引区间内,比特的值为“1”标识对应的网页落在该索引区间内。例如,索引区间“0-15”对应的索引部分为100,表明在该索引区间内对应有网页A,而没有网页B和C;索引区间“16-50”对应的索引部分为010,表明在该索引区间内对应有网页B,而没有网页A和C;索引区间“51-100”对应的索引部分为111,表明在该索引区间内对应有网页A、B和C。当然,上述索引部分与网页的映射关系只是一种示例,本申请不仅限于此。
在进行网页检索的时候,先根据输入的查询语句获取待检索网页的属性值(查询区间)和属性标识,并将所获取的上述属性值和属性标识进行上述相同的运算得到属性值范围。
以查询价格在25-60之间的产品为例进行说明,属性值25-60乘以属性标识1得到属性值范围25-60,该属性值范围和索引区间“16-50”以及“51-100”存在交集,因此,获取这两个索引区间对应的位图索引中的网页,因为索引区间“16-50”中有网页B,索引区间“51-100”中有网页A、B、C。从而将网页A、B、C作为第一结果集进行输出。
然后,对网页A、B、C进行检索,判断这三个网页中是否存在属性标识(id)为1、属性值在查询语句的属性值25-60之内的网页,通过判断可以得到网页B的属性标识为1、且其属性值40-55与查询语句的属性值25-60存在交集,从而将网页B作为检索结果进行返回,这样就实现了对价格的范围的检索。
以查询内径值为48的产品为例进行说明,将查询语句中的内径的属性标识2和内径的属性值48相乘得到属性值范围96,该属性值范围和索引区间“51-100”之间存在交集,获取索引区间“51-100”对应的位图索引中的网页,从而将网页A作为第一结果集进行输出。
然后,对网页A进行检索,判断网页A中是否存在属性标识为2的属性且该属性标识对应的属性值和48存在交集,则将网页A作为最终检索结果输出,实现了对非通用属性的检索。
在上述优选实施方式中,将属性标识和属性值做一个运算从而得到一个对应的属性值范围,从而使得索引区间的映射不再针对某个固定的属性,而是针对所有属性的,属性在此处相当于已经不存在,只是通过一个范围在进行相应的映射,从而在不产生数据冗余的情况下实现通用属性和非通用属性的在查询和检索上的统一。
在本申请一个优选实施方式中,根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围的步骤包括:将待扫描的网页的属性标识与属性值进行哈希运算得到待扫描的网页的属性值范围。
在本申请一个优选实施方式中,根据查询语句的属性标识和查询区间得到查询语句的属性值范围的步骤包括:将查询语句的属性标识与查询区间进行哈希运算得到查询语句的属性值范围。
优选的,在搜索引擎的待扫描网页中,通用属性使用字符串存储,而用户自定义属性利用可扩展标记语言(Extensible Markup Language,简称为XML)格式存储,优选的,对XML格式的用户自定义属性文件进行分词解析得到属性标识和属性值。
在本申请一个优选实施方式中,对索引区间的确定可以采用以下方式实现,优选的,累加的偏移信息是个数组,累加的偏移信息中保存的是对第三部分属性信息的定位信息。以网页id为下标,记录到每网页id号为止前面所有网页的自定义属性信息的字节数之和。
实施例3
本申请提供了一种优选的实施例来进一步对本申请进行解释,但是值得注意的是,该优选实施例只是为了更好的描述本申请,并不构成对本申请不当的限定。
对网页的检索过程可以通过如图8所示的步骤实现,包括(S802-S808):
S802,解析用户输入的查询语句,得到属性标识、属性区间下界和属性区间上界。这里,可以根据用户选择的属性类别来获取该属性类别对应的属性标识,例如,网页提供给用户的属性类别包括:价格、日期和内径等,若用户选择在“价格”属性中查询“25-60”的产品,则可以根据预先定义的映射关系来获得属性“价格”对应的属性标识id=1,并得到该属性标识下的查询区间为“25-60”,其中,属性区间下界为25,属性区间上界为60;
S804,根据得到的区间的上下界和索引区间进行比较得到若干个和待检索的属性值范围存在交集的索引区间,从而得到一个对应的网页集合。
具体而言,首先根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围;优选的,可以通过对待检索网页的属性标识和查询区间进行乘法运算得到待检索的属性值范围,例如,在属性标识id=1、查询区间“25-60”时,通过乘法运算可以得到待检索的属性值范围为“25-60”;
然后,判断所述待检索的属性值范围与在接收所述查询语句的系统中预先建立的多个索引区间是否存在交集;假设系统预先将用于多个属性检索的索引区间划分为“0-15”、“16-50”、“51-100”、“101-300”等几个区间,则待检索的属性值范围“25-60”与索引区间“16-50”、“51-100”存在交集;
S806,遍历得到的网页集合中的每个网页,通过过滤索引文件中的累加的偏移信息部分,找到这个网页对应的用户自定义属性的属性标识以及属性值。
优选的,过滤索引文件包含三个部分信息:索引头信息、累加的偏移信息和用户自定义属性信息块,其中,索引头信息包含一些对索引文件的描述信息,累加的偏移信息是个数组,其中保存的是对用户自定义属性信息块的定位信息,以网页属性地址作为下标,记录到每网页地址号为止前面所有网页的自定义属性信息的字节数之和;,用户自定义属性信息块中包含所有用户自定义属性信息,它可以由多个项组成,每个项包含两部分内容,属性地址和属性值(离散值或者数值区间)。优选的,可以用属性地址的最低位为0表示属性值是离散值,属性地址的最低位为1表示属性值是区间。每个项对应一个用户自定义属性,一个网页可以同时对应多个用户自定义属性,也就是多个项。
S808,对比每个存在该用户自定义属性的网页,如果属性标识相同,且属性值和查询语句的属性值存在交集,那么将这个网页就放进结果集,得到的结果集就是用户的查询结果。
本申请上述实施例只是本申请的示意性实施例,用于解释本申请,并不构成对本申请的不当限定。
通过以上描述可知,本申请的各个实施例具有以下技术效果:将待检索网页的属性标识作为查询条件之一,根据待检索网页的属性标识和查询区间得到待检索的属性值范围,从而进行第一次粗略筛选,即在系统预定的索引区间中选择与待检索的属性值范围存在交集的索引区间,并筛选出交集的索引区间所对应的网页,然后进行第二次精细筛选,在筛选出来的网页中查找属性标识和查询区间都满足查询条件的网页作为检索结果进行输出。在上述的技术方案中,系统预先建立的索引区间不再是针对哪种属性单独建立的,而是将属性标识作为建立索引区间时考虑的因素之一,这样使得建立的索引区间是针对多个属性的,即可以在由具有多个不同属性的网页组成的集合中进行统一查询,而不是如现有技术中那样只能在同一个属性中进行查询,使得在新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,不需要为对每个现有的网页增加对应的字段来记录该属性,从而解决了现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题,达到了减少数据冗余,节约系统资源的效果,进一步的也实现了对属性的范围检索。另外,本申请实施例是通过属性标识作为查询条件之一,利用属性标识和查询区间的运算结果到系统预定的索引区间进行查询,而不是像现有技术的查询通过从查询语句中获取到的关键词在系统中进行属性的匹配查询,然后再进行查询区间的查询,因此提高了查询的速度。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网页检索方法,其特征在于,包括:
根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;
根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围;
判断所述待检索的属性值范围与在接收所述查询语句的系统中预先建立的多个索引区间是否存在交集;
在存在交集的所述索引区间下的所有网页中获取属性标识为所述待检索网页的属性标识、且属性值与所述查询区间存在交集的网页;
将获取到的网页作为检索结果返回。
2.根据权利要求1所述的方法,其特征在于,在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,还包括:对于所述系统中待扫描的网页执行以下步骤:
获取所述待扫描的网页的属性标识和属性值;
根据所述待扫描的网页的属性标识和属性值得到所述待扫描的网页的属性值范围;
判断所述待扫描的网页的属性值范围与所述预先建立的多个索引区间是否存在交集;
将存在交集的索引区间与所述待扫描的网页之间建立映射关系。
3.根据权利要求2所述的方法,其特征在于,根据所述待扫描的网页的属性标识和属性值得到所述待扫描的网页的属性值范围的步骤包括:
将所述待扫描的网页的属性标识与属性值进行哈希运算得到所述待扫描的网页的属性值范围。
4.根据权利要求1所述的方法,其特征在于,根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围的步骤包括:
将所述待检索网页的属性标识与所述查询区间进行哈希运算得到所述待检索的属性值范围。
5.根据权利要求1所述的方法,其特征在于,所述属性值为离散值或预定的数值范围。
6.一种网页检索装置,其特征在于,包括:
第一获取单元,用于根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;
第一计算单元,用于根据所述待检索网页的属性标识和所述查询区间得到待检索的属性值范围;
第一判断单元,用于判断所述待检索的属性值范围与在接收所述查询语句的系统中预先建立的多个索引区间是否存在交集;
第二获取单元,用于在存在交集的所述索引区间下的所有网页中获取属性标识为所述待检索网页的属性标识、且属性值与所述查询区间存在交集的网页;
返回单元,用于将获取到的网页作为检索结果返回。
7.根据权利要求6所述的装置,其特征在于,还包括:
第三获取单元,用于在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,获取所述待扫描的网页的属性标识和属性值;
第二计算单元,用于根据所述待扫描的网页的属性标识和属性值得到所述待扫描的网页的属性值范围;
第二判断单元,用于判断所述待扫描的网页的属性值范围与所述预先建立的多个索引区间是否存在交集;
建立单元,用于将存在交集的索引区间与所述待扫描的网页之间建立映射关系。
8.根据权利要求7所述的装置,其特征在于,所述第二计算单元包括:
第一哈希模块,用于将所述待扫描的网页的属性标识与属性值进行哈希运算得到所述待扫描的网页的属性值范围。
9.根据权利要求6所述的装置,其特征在于,所述第一计算单元包括:
第二哈希模块,用于将所述待检索网页的属性标识与所述查询区间进行哈希运算得到所述待检索的属性值范围。
10.根据权利要求6所述的装置,其特征在于,所述属性值为离散值或预定的数值范围。
CN201210026812.4A 2012-02-07 2012-02-07 网页检索方法和装置 Active CN103246664B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201210026812.4A CN103246664B (zh) 2012-02-07 2012-02-07 网页检索方法和装置
TW101117555A TWI564737B (zh) 2012-02-07 2012-05-17 Web search methods and devices
US13/759,774 US9262454B2 (en) 2012-02-07 2013-02-05 Web page retrieval method and device
PCT/US2013/024842 WO2013119603A1 (en) 2012-02-07 2013-02-06 Web page retrieval method and device
EP13706792.2A EP2812815B1 (en) 2012-02-07 2013-02-06 Web page retrieval method and device
JP2014555847A JP5875711B2 (ja) 2012-02-07 2013-02-06 ウェブページ検索の方法及び装置
HK13110915.6A HK1183542A1 (zh) 2012-02-07 2013-09-25 網頁檢索方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210026812.4A CN103246664B (zh) 2012-02-07 2012-02-07 网页检索方法和装置

Publications (2)

Publication Number Publication Date
CN103246664A true CN103246664A (zh) 2013-08-14
CN103246664B CN103246664B (zh) 2016-05-25

Family

ID=48903829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210026812.4A Active CN103246664B (zh) 2012-02-07 2012-02-07 网页检索方法和装置

Country Status (7)

Country Link
US (1) US9262454B2 (zh)
EP (1) EP2812815B1 (zh)
JP (1) JP5875711B2 (zh)
CN (1) CN103246664B (zh)
HK (1) HK1183542A1 (zh)
TW (1) TWI564737B (zh)
WO (1) WO2013119603A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462104A (zh) * 2013-09-16 2015-03-25 华为软件技术有限公司 过滤方法和服务器
CN108255882A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 数据查询方法及装置
CN109299128A (zh) * 2018-10-30 2019-02-01 江苏卫蓝医疗科技有限公司 一种手术室可视化数据调用系统及其方法
CN112214521A (zh) * 2020-11-20 2021-01-12 深圳前海微众银行股份有限公司 规则查询方法、装置、设备及计算机存储介质
CN112364093A (zh) * 2020-11-11 2021-02-12 天津大学 一种学习型大数据可视化方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063469A (zh) 2014-06-27 2014-09-24 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置
JP6346530B2 (ja) * 2014-08-22 2018-06-20 朝田 昌男 問合せ式によるホームページ検索の方法
US10394786B2 (en) * 2015-04-20 2019-08-27 Futurewei Technologies, Inc. Serialization scheme for storing data and lightweight indices on devices with append-only bands
CN107145493B (zh) * 2016-03-01 2020-11-24 创新先进技术有限公司 信息处理方法及装置
US11416223B2 (en) * 2019-08-09 2022-08-16 Paypal, Inc. System for implementing dynamic payments catalog
US11722500B2 (en) * 2020-04-01 2023-08-08 Paypal, Inc. Secure identity verification marketplace using hashed data and forward hashing search functions
US11550762B2 (en) * 2021-02-24 2023-01-10 Sap Se Implementation of data access metrics for automated physical database design
CN115033334B (zh) * 2022-08-10 2022-12-06 长沙朗源电子科技有限公司 一种页面翻页方法、系统、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842197A (en) * 1996-08-29 1998-11-24 Oracle Corporation Selecting a qualified data repository to create an index
CN1716258A (zh) * 2004-05-14 2006-01-04 微软公司 用于web数据库模型匹配的方法和系统
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
US20090037403A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Generalized location identification
CN102053995A (zh) * 2009-11-04 2011-05-11 范煜 一种利用多级分类检索信息的方法
US20110173177A1 (en) * 2010-01-11 2011-07-14 Flavio Junqueira Sightful cache: efficient invalidation for search engine caching

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5010478A (en) * 1986-04-11 1991-04-23 Deran Roger L Entity-attribute value database system with inverse attribute for selectively relating two different entities
US5761652A (en) * 1996-03-20 1998-06-02 International Business Machines Corporation Constructing balanced multidimensional range-based bitmap indices
JPH10242964A (ja) 1997-02-25 1998-09-11 Hitachi Ltd 管理情報データベース格納方式
US6144983A (en) * 1998-06-09 2000-11-07 Oracle Corporation Method and apparatus for dynamic lock granularity escalation and de-escalation in a computer system
US6789252B1 (en) * 1999-04-15 2004-09-07 Miles D. Burke Building business objects and business software applications using dynamic object definitions of ingrediential objects
JP2001067369A (ja) * 1999-08-27 2001-03-16 Nec Corp 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
US7103605B1 (en) * 1999-12-10 2006-09-05 A21, Inc. Timeshared electronic catalog system and method
US6757675B2 (en) * 2000-07-24 2004-06-29 The Regents Of The University Of California Method and apparatus for indexing document content and content comparison with World Wide Web search service
US20020152133A1 (en) * 2001-03-09 2002-10-17 King John Thorne Marketplaces for on-line contract negotiation, formation, and price and availability querying
US7809672B1 (en) * 2001-06-28 2010-10-05 I2 Technologies Us, Inc. Association of data with a product classification schema
JP2003288367A (ja) 2002-03-28 2003-10-10 Portal Corp データベース装置、データベース構築方法、及びデータ検索方法
US20040254950A1 (en) 2003-06-13 2004-12-16 Musgrove Timothy A. Catalog taxonomy for storing product information and system and method using same
WO2006036781A2 (en) * 2004-09-22 2006-04-06 Perfect Market Technologies, Inc. Search engine using user intent
US8260771B1 (en) * 2005-07-22 2012-09-04 A9.Com, Inc. Predictive selection of item attributes likely to be useful in refining a search
US7565349B2 (en) * 2005-11-10 2009-07-21 International Business Machines Corporation Method for computing frequency distribution for many fields in one pass in parallel
US8326890B2 (en) * 2006-04-28 2012-12-04 Choicebot, Inc. System and method for assisting computer users to search for and evaluate products and services, typically in a database
US20080059281A1 (en) 2006-08-30 2008-03-06 Kimberly-Clark Worldwide, Inc. Systems and methods for product attribute analysis and product recommendation
US9646089B2 (en) * 2006-09-18 2017-05-09 John Nicholas and Kristin Gross Trust System and method of modifying ranking for internet accessible documents
JP5460001B2 (ja) 2008-08-25 2014-04-02 キヤノン株式会社 画像検索装置、画像検索装置の制御方法、プログラム及び記録媒体
CN102473185B (zh) * 2009-07-07 2014-02-26 日本电气株式会社 信息搜索系统、信息管理设备、信息搜索方法、信息管理方法、以及记录介质
TWI480746B (zh) * 2009-11-09 2015-04-11 Hewlett Packard Development Co 使用經結構化之資料儲存器達到較快速全文檢索
JP2011170791A (ja) 2010-02-22 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 情報記録装置、情報記録方法およびプログラム
US8290822B2 (en) 2010-08-20 2012-10-16 Valuemomentum, Inc. Product configuration server for efficiently displaying selectable attribute values for configurable products

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842197A (en) * 1996-08-29 1998-11-24 Oracle Corporation Selecting a qualified data repository to create an index
CN1716258A (zh) * 2004-05-14 2006-01-04 微软公司 用于web数据库模型匹配的方法和系统
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
US20090037403A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Generalized location identification
CN102053995A (zh) * 2009-11-04 2011-05-11 范煜 一种利用多级分类检索信息的方法
US20110173177A1 (en) * 2010-01-11 2011-07-14 Flavio Junqueira Sightful cache: efficient invalidation for search engine caching

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462104A (zh) * 2013-09-16 2015-03-25 华为软件技术有限公司 过滤方法和服务器
CN104462104B (zh) * 2013-09-16 2019-03-19 华为软件技术有限公司 过滤方法和服务器
CN108255882A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 数据查询方法及装置
CN109299128A (zh) * 2018-10-30 2019-02-01 江苏卫蓝医疗科技有限公司 一种手术室可视化数据调用系统及其方法
CN112364093A (zh) * 2020-11-11 2021-02-12 天津大学 一种学习型大数据可视化方法及系统
CN112364093B (zh) * 2020-11-11 2023-04-04 天津大学 一种学习型大数据可视化方法及系统
CN112214521A (zh) * 2020-11-20 2021-01-12 深圳前海微众银行股份有限公司 规则查询方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
WO2013119603A1 (en) 2013-08-15
US20130204879A1 (en) 2013-08-08
US9262454B2 (en) 2016-02-16
EP2812815A1 (en) 2014-12-17
TWI564737B (zh) 2017-01-01
EP2812815B1 (en) 2020-10-14
TW201333730A (zh) 2013-08-16
JP2015507293A (ja) 2015-03-05
JP5875711B2 (ja) 2016-03-02
CN103246664B (zh) 2016-05-25
HK1183542A1 (zh) 2013-12-27

Similar Documents

Publication Publication Date Title
CN103246664A (zh) 网页检索方法和装置
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
US7752314B2 (en) Automated tagging of syndication data feeds
JP5721818B2 (ja) 検索におけるモデル情報群の使用
He et al. Crawling deep web entity pages
US9317613B2 (en) Large scale entity-specific resource classification
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
US20090037408A1 (en) Essence based search engine
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN103577489A (zh) 一种网页浏览历史查询方法及装置
CN103577490A (zh) 一种网页浏览历史展现方法及装置
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
CN103838798A (zh) 页面分类系统及页面分类方法
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
US20110016125A1 (en) Method and system for user centered information searching
US20150269138A1 (en) Publication Scope Visualization and Analysis
CN103778217A (zh) 基于当前网页列表进行推荐的方法和系统
Figueiredo et al. DERIN: A data extraction method based on rendering information and n-gram
Chen Usage pattern comparison of the same scholarly articles between Web of Science (WoS) and Springer
US9600579B2 (en) Presenting search results for an Internet search request
Manek et al. Hybrid crawling for time-based personalized web search ranking
US8468163B2 (en) Ontology system providing enhanced search capability with ranking of results
CN110020205B (zh) 数据信息的筛选方法和系统
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1183542

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1183542

Country of ref document: HK