CN107341221A - 索引结构的建立、关联检索方法、装置、设备及存储介质 - Google Patents

索引结构的建立、关联检索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107341221A
CN107341221A CN201710507870.1A CN201710507870A CN107341221A CN 107341221 A CN107341221 A CN 107341221A CN 201710507870 A CN201710507870 A CN 201710507870A CN 107341221 A CN107341221 A CN 107341221A
Authority
CN
China
Prior art keywords
document
upper strata
lower floor
matching
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710507870.1A
Other languages
English (en)
Other versions
CN107341221B (zh
Inventor
李晓东
邵军义
罗雪峰
吴少兵
陈春筝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710507870.1A priority Critical patent/CN107341221B/zh
Publication of CN107341221A publication Critical patent/CN107341221A/zh
Application granted granted Critical
Publication of CN107341221B publication Critical patent/CN107341221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种倒排索引结构的建立、关联检索方法、装置、设备及存储介质。所述倒排索引结构的建立方法包括:将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据检索技术,高效实现了对不同层级数据的关联检索。

Description

索引结构的建立、关联检索方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种倒排索引结构的建立、关联检索方法、装置、设备及存储介质。
背景技术
随着O2O(Online To Offline,线上到线下)业务的不断发展,为了满足广大O2O用户的需求,大量传统的线下服务出现了相应的线上服务,不同于传统的线下预订服务,线上预订服务需要提供预定数据的检索功能,便于O2O用户快捷定位支持预订的线下实体服务平台。但是,一般的线下服务包括有两个或者两个以上层级的可选预定项目,例如:针对KTV的线上预定,用户一般需要选择KTV门店以及所需的包厢;针对餐厅的线上预定,用户一般需要选择餐厅门店以及所需的包厢等。因此,针对线上预定服务,如何实现一个既可以支持门店数据的智能排序,又支持门店以及下一层级项目之间的数据的条件筛选,并能快速响应检索请求的线上预定检索系统成了一个难题。
发明内容
本发明实施例提供了一种倒排索引结构的建立、关联检索方法、装置、设备及存储介质,以优化现有数据检索技术,实现对不同层级数据的关联检索。
第一方面,本发明实施例提供了一种倒排索引结构的建立方法,包括:
将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;
根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
第二方面,本发明实施例还提供了一种关联检索方法,应用通过本发明实施例所述的倒排索引结构的建立方法所建立的倒排索引结构,包括:
解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;
根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;
按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
第三方面,本发明实施例还提供了一种倒排索引结构的建立装置,包括:
数据存储模块,用于将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;
倒排表建立模块,用于根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
第四方面,本发明实施例还提供了一种关联检索装置,应用通过本发明实施例所述的倒排索引结构的建立装置所建立的倒排索引结构,包括:
数据筛选条件获取模块,用于解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;
文档编号集合获取模块,用于根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;
排序显示模块,用于按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
第五方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的倒排索引结构的建立方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的倒排索引结构的建立方法。
第七方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的关联检索方法。
第八方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的关联检索方法。
本发明实施例提供了一种倒排索引结构的建立、关联检索方法、装置、设备及存储介质,通过预先建立记录有上层文档数据与所述下层文档数据之间的关联关系的倒排索引结构,在获取用户输入的关联检索条件后,解析该关联检索请求,获取与所述关联检索请求对应的数据筛选条件;根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示的技术手段,在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据检索技术,高效实现了对不同层级数据的关联检索。
附图说明
图1a是本发明实施例一中的一种倒排索引结构的建立方法的流程图;
图1b是本发明实施例一中的一种上层文档倒排表的结构示意图;
图1c是本发明实施例一中的一种下层文档倒排表的结构示意图;
图2是本发明实施例二中的一种关联检索方法的流程图;
图3a是本发明实施例三中的一种关联检索方法的流程图;
图3b是本发明实施例三中的一种文档号查询属性映射表的结构示意图;
图4a是本发明实施例四中的一种关联检索方法的流程图;
图4b是本发明实施例中的一种具体应用场景的实现流程图;
图4c是本发明实施例中的一种匹配上层文档编号集合的存储形式示意图;
图5是本发明实施例五中的一种倒排索引结构的建立装置的结构图;
图6是本发明实施例六中的一种关联检索装置的结构图;
图7是本发明实施例七中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1a为本发明实施例一提供的一种倒排索引结构的建立方法的流程图,本实施例可适用于建立进行关联检索的倒排索引结构的情况,该方法可以由本发明实施例提供的倒排索引结构的建立装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在关联检索服务器中。如图1a所示,本实施例的方法具体包括:
S110、将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中。
目前,随着检索技术的不断发展,人们的检索需求也越来越高,单一层级的检索技术已经不能满足人们的要求了,因此关联检索也应运而生。所谓关联检索,是指需要进行至少两个层级的关联检索。例如:用户可以进行“饭店+包厢”的关联检索、“电影院+影厅类型”的关联检索或者“KTV门店+KTV包厢”的关联检索等。
为了实现上述关联检索,首先需要将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中。也即,如前例,所述上层文档数据可以为KTV门店数据,所述下层文档数据可以为KTV包厢数据,或者所述上层文档数据可以为电影院门店数据,所述下层文档数据可以为电影院影厅类型数据等。
发明人通过研究发现,如果仅将上层文档数据以及下层文档数据独立存储(也即,存储于不同的存储空间中),则可以使得数据更新成本低,即:上下层文档数据可以独立更新互不影响,但是检索性能较差,检索耗时大;如果将上下层文档数据联合存储,例如:将与同一上层文档数据对应的各下层文档数据按块存储,将每一个上层文档数据存储于对应下层文档数据的存储块的最后位置,则可以提高检索性能,但是检索更新成本提高了,一旦下层文档数据被更新,都会带来全块数据的更新。
基于此,发明人创造性的提出了一种在索引时记录上下层数据关联关系的倒排索引结构,在保证关联数据高性能检索的同时,尽可能的降低了数据的更新成本。
可选的,为了进一步提高检索性能,可以将属于同一上层文档的至少一个下层文档连续存储于所述存储空间中连续的物理区块中。
S120、根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表。
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
在本实施例中,通过在上层文档倒排表中记录关联的下层文档的存储位置信息,以及在下层文档倒排表中记录关联的上层文档的存储位置信息,可以实现即使将上层文档数据与下层文档数据进行独立存储,也能快速将上层文档数据与下层文档数据进行快速关联,在大大降低数据更新成本的基础上,能够大幅提高检索性能。
在本实施例的一个可选的实施方式中,所述上层文档倒排表中可以包括:上层词条索引,以及与所述上层词条索引对应的上层文档记录序列,其中,在上层文档记录中存储有包括上层词条索引的目标上层文档的文档编号,以及与所述目标上层文档关联的下层文档信息;
在所述下层文档倒排表中可以包括:下层词条索引,以及与所述下层词条索引对应的下层文档记录序列,其中,在下层文档记录中存储有包括下层词条索引的目标下层文档的文档编号,以及与所述目标下层文档号关联的上层文档信息;其中,在所述存储空间中,不同文档对应不同的文档编号。
进一步的,所述下层文档信息中可以包括:下层文档的文档起始编号,以及编号偏移总量;所述上层文档信息中可以包括:上层文档的文档编号。
其中,所述编号偏移总量为一个上层文档所关联的全部下层文档对应的编号总量。
其中,在图1b中示出了本发明实施例一中的一种上层文档倒排表的结构示意图,在图1c中示出了本发明实施例一中的一种下层文档倒排表的结构示意图。
在一个具体例子中,上层文档1对应的下层文档的文档编号范围为:1-5;则与上层文档1对应的下层文档信息包括:下层文档的文档起始编号为1,编号偏移总量为5。
本发明实施例提供了一种倒排索引结构的建立方法,通过将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表的技术手段,所构造的倒排索引结构在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据存储技术,提出了一种关联数据存储的新思路。
实施例二
图2为本发明实施例二提供的一种关联检索方法的流程图,本实施例可适用于对不同层级的数据进行关联检索的情况,应用本发明实施例的倒排索引结构的建立方法所建立的倒排索引结构,本实施例的方法可以由本发明实施例提供的关联检索装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在关联检索服务器中。如图2所示,本实施例的方法具体包括:
S210、解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件。
其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件。
一般来说,用户主要可以通过项目选择的方式或者在输入框中输入内容的方式在设定检索软件(例如,糯米网)中输入关联检索请求,以用户检索KTV为例,用户可以通过手机在检索软件中输入或者选择地点(例如:海淀区),人数(例如:30人)或者金额范围(例如:100-200元)等作为关联检索请求。系统将根据用户的输入内容,自动确定对应的数据筛选条件。
如前例,如果将KTV门店作为上层文档数据,KTV包厢作为下层文档数据,则可以确定上层数据筛选条件为“海淀区”,下层数据筛选条件为“30人”以及“100-200元”。
当然,本领域技术人员可以理解的是,与用户输入的关联检索请求对应的数据筛选条件可以同时包括上层数据筛选条件以及下层数据筛选条件,还可以仅包括上层数据筛选条件,还可以仅包括下层数据筛选条件,本实施例对此并不进行限制。
S220、根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
在本实施例中,所述上层数据筛选条件或者下层数据筛选条件可以对应于一个或者多个词条属性(例如,海淀区,或者30人),词条属性对应于所述倒排索引结构的上层文档倒排表或者下层文档倒排表中的词条索引。
典型的,可以首先根据上层数据筛选条件,确定对应的上层文档编号集合;之后根据下层数据筛选条件,确定对应的Map结构数据,在该Map结构数据中以上层文档编号为Key,以与上层文档编号对应的下层文档编号集合为对应的Value。例如,Map结构数据中的一个键值对中,Key为上层文档1,对应的Value为{下层文档1;下层文档3}。
其中,上层文档与下层文档的数据类型不同的原因在于,获取的下层文档编号不能独立于上层文档编号而单独存在。
相应的,在获取上层文档编号集合以及Map结构数据之后,通过将所述上层文档编号集合与Map结构数据中的Key取交集,可以确定最终满足条件的匹配上层文档编号集合,之后根据Map结构数据中与所述匹配上层文档编号集合对应的Value,能够确定与匹配上层文档编号对应的匹配下层文档编号集合。
S230、按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
在本实施例中,所述排序算法可以包括:按距离排序、按平均消费排序或者按照综合评价排序等,本发明实施例对此并不进行限制。
在确定排序算法后,可以对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并在显示各匹配上层文档的同时,将与匹配上层文档对应的匹配下层文档同步进行显示。
当然,可以理解的是,除了可以显示匹配上层文档以及匹配下层文档之外,还可以同步显示与匹配上层文档,和/或匹配下层文档对应的其他显示属性,例如:热度值、用户评分值,平均消费值以及综合评分值等,以使用户对得到的关联检索结果有更加直观的了解,为用户对关联检索结果的选择使用带来更大的帮助。
本发明实施例提供了一种关联检索方法,通过解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件;根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示的技术手段,在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据检索技术,高效实现了对不同层级数据的关联检索。
实施例三
图3a为本发明实施例三提供的一种关联检索方法的流程图,本实施例以上述实施例为基础进行具体化。在本实施例中,将所述数据筛选条件具体为:上层数据筛选条件以及下层数据筛选条件;
以及,将根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合,具体为:根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合;根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据;根据获取的所述第一上层文档编号集合以及所述第一目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
相应的,本实施例的方法包括:
S310、解析用户输入的关联检索请求,获取与所述关联检索请求对应的上层数据筛选条件,以及下层数据筛选条件。
S320、根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合。
可选的,根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合可以包括:
根据与至少两个所述上层数据筛选条件分别对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与各所述上层数据筛选条件分别对应的上层文档编号集合;
将获取的至少两个上层文档编号集合取交集,得到与所述上层数据筛选条件对应的第一上层文档编号集合。
在一个具体的例子中,与上层数据筛选条件a对应的上层文档编号集合为{上层文档1;上层文档2;上层文档5},与上层数据筛选条件b对应的上层文档编号集合为{上层文档2;上层文档5;上层文档7},则与所述上层数据筛选条件对应的第一上层文档编号集合为{上层文档2;上层文档5}。
S330、根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据。
其中,所述第一目标Map结构数据中的Key为上层文档编号,所述第一目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合。
可选的,根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据可以包括:
根据与至少两个所述下层数据筛选条件分别对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取至少两个备选Map结构数据;
对所述至少两个备选Map结构数据中的包括的各Key取交集,得到目标Key;
将所述至少两个备选Map结构数据中包括与各目标Key分别对应的各Value取交集,得到目标Value;
根据所述目标Key以及所述目标Value,生成所述第一目标Map结构数据。
S340、根据获取的所述第一上层文档编号集合以及所述第一目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
S350、根据所述排序算法确定至少一个排序属性,并在预存的文档号查询属性映射表中获取与各匹配上层文档编号对应的排序属性的属性值。
其中,所述文档号查询属性映射表中存储有文档编号,以及与文档编号对应的至少一个排序属性的属性值。在图3b中示出了一种文档号查询属性映射表的结构示意图。
在本实施例中,所述排序算法的选取可以由系统设置,也可以由用户自定义选取,本实施例对此并不进行限制。
在一个具体的例子中,根据所述排序算法确定至少一个排序属性为:用户评价值以及人均消费值。
在确定了排序属性之后,可以据此查询文档号查询属性映射表,进而可以根据匹配上层文档编号集合中各匹配上层文档编号,确定与相应排序属性对应的属性值。
S360、根据与各匹配上层文档编号分别对应的排序属性的属性值,计算与各匹配上层文档分别对应的排序得分值,并根据所述排序得分值,对各所述匹配上层文档进行排序。
在一个具体例子中,匹配上层文档1对应的排序属性1的排序得分值为A,匹配上层文档1对应的排序属性2的排序得分值为B。因此,可以将A+B直接作为所述排序得分值,也可以将k1*A+k2*B作为所述排序得分值,其中,k1以及k2为设定的比例系数。
S370、根据页面显示属性,确定与当前页面对应的待显示匹配上层文档,并根据所述第一目标Map结构数据,获取与所述待显示匹配上层数据对应的待显示匹配下层文档。
其中,所述页面显示属性可以为显示屏幕的大小以及显示字体的大小等,根据上述页面显示属性,可以进而确定每一个显示页面中能够显示的匹配上层文档的数量,基于S340获取的匹配上层文档编号的总量,以及当前页面编号(显示页面的第一页或者显示页面的第二页等),确定与当前页面对应的待显示匹配上层文档以及待显示匹配下层文档。
S380、根据所述待显示匹配上层文档以及所述待显示匹配下层文档构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
在本实施例中,由于用户所做的为关联检索,因此可以将一个待显示匹配上层文档,以及与其对应的一个或者多个待显示匹配下层文档封装于一个检索显示条目中进行显示。例如:“万达影城太阳城店,影厅A以及影厅B”。
本发明实施例的技术方案根据由用户输入的关联检索请求确定的上层数据筛选条件,以及下层数据筛选条件,使用预先建立的倒排索引结构进行关联检索,在大大减少数据更新成本的基础上,通过灵活使用不同的排序算法,可以实现将满足用户需求的优质关联资源快速、准确的提供给用户,大大提高用户的使用体验。
实施例四
图4a为本发明实施例四提供的一种关联检索方法的流程图,本实施例以上述实施例为基础进行具体化。在本实施例中,将所述数据筛选条件具体为:上层数据筛选条件;
以及,将根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合,具体为:根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第二上层文档编号集合以及与所述第二上层文档编号集合对应的第二目标Map结构数据;根据所述第二目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
相应的,本实施例的方法包括:
S410、解析用户输入的关联检索请求,获取与所述关联检索请求对应的上层数据筛选条件。
S420、根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第二上层文档编号集合以及与所述第二上层文档编号集合对应的第二目标Map结构数据。
其中,所述第二目标Map结构数据中的Key为上层文档编号,所述第二目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合。
在本实施例中,如果未通过所述关联检索请求确定出下层数据筛选条件,则可以根据上层文档倒排表中记录的下层文档的文档起始编号,以及编号偏移总量,确定所述第二目标Map结构数据中的Value。
例如,上层文档1对应的下层文档的文档起始编号为1,编号偏移总量为5,则如果所述上层文档1为一个第二上层文档编号,则所述第二目标Map结构数据中包括的一个键值对为,Key:上层文档1,Value:{下层文档1;下层文档2;下层文档3;下层文档4;下层文档5}。
S430、根据所述第二目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
S440、根据所述排序算法确定至少一个排序属性,并在预存的文档号查询属性映射表中获取与各匹配上层文档编号对应的排序属性的属性值。
其中,所述文档号查询属性映射表中存储有文档编号,以及与文档编号对应的至少一个排序属性的属性值。
S450、根据与各匹配上层文档编号分别对应的排序属性的属性值,计算与各匹配上层文档分别对应的排序得分值,并根据所述排序得分值,对各所述匹配上层文档进行排序。
S460、根据页面显示属性,确定与当前页面对应的待显示匹配上层文档,并根据所述第二目标Map结构数据,获取与所述待显示匹配上层数据对应的待显示匹配下层文档。
S470、获取预先设定的第一显示属性,和/或与所述数据筛选条件对应的第二显示属性。
在本实施例中,考虑到在显示关联检索结果的同时,如果能够将该关联检索结果的其他显示属性提供给用户,例如:热度、好评度以及用户评分值等,可以帮助用户对所述关联检索结果进行决策,以提高用户体验。
相应的,可以由系统预先设定固定的第一显示属性,也可以由用户输入的关联检索请求确定的数据筛选条件确定用户自定义的第二显示属性(例如,用户在关联检索请求中输入“用户评价好”,则可以确定用户评价值作为所述第二显示属性)。
S480、根据所述待显示上层文档的文档编号以及所述待显示下层文档的文档编号,查询文档号查询属性映射表,获取各所述待显示上层文档的所述第一显示属性的属性值,和/或所述第二显示属性的显示属性值。
S490、根据所述待显示上层文档、所述待显示下层文档以及所述显示属性值构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
本实施例的技术方案根据由用户输入的关联检索请求确定的上层数据筛选条件,使用预先建立的倒排索引结构进行关联检索,在大大减少数据更新成本的基础上,通过灵活使用不同的排序算法,可以实现将满足用户需求的优质关联资源快速、准确的提供给用户,大大提高用户的使用体验。
在图4b中示出了本发明实施例的一种具体应用场景的示意图。如图4b所示,上述应用场景可以包括:数据索引的定义构建过程以及数据的检索排序过程,其中,所述上层文档数据具体包括KTV门店数据,所述下层文档数据具体包括KTV包厢数据。
1、索引数据的定义与创建:定义适用于关联数据检索的倒排索引结构、定义用于通过文档编号获取其排序属性的文档号查询属性映射表。注:文档编号为索引数据中标志一条数据的自增且唯一标识一条记录的值。
其中,所述倒排索引结构定义如下:每一个关联的上层文档数据和下层文档数据都作为一个单独的文档记录,进行倒排索引;在上层文档倒排表中,每个记录中存储的数据属性与下层文档倒排表中存储的数据属性不同。在上层文档倒排表中,词条指向记录的倒排表中的每个倒排记录里,不但记录了上层文档数据的文档编号(倒排表中的文档编号按照从小到大的顺序存放),还包含了指向下层文档数据的文档编号的开始及偏移总量。此外,下层文档数据中属于同一个上层文档数据的下层文档数据必须连续存储形成一个逻辑区块,每个下层文档数据倒排表中的每条记录,除了存放词条指向记录的文档编号(倒排表中的文档编号按照从小到大的顺序存放),还要包含其所属上层文档数据的文档编号。
2、倒排索引结构的创建
首先,可以从POI(Point Of Interest,兴趣点)系统中拉取全部KTV预定的门店和包厢数据作为原始数据;之后对上述拉取的数据中,每一组关联数据进行处理:对上层文档数据的记录的每个需要索引的词条,按照图1b以及图3b的结构,创建上层文档倒排表和文档号查询属性映射表;对下层数据的每个需要索引的词条,按照图1c以及图3b的结构,创建下层文档倒排表和文档号查询属性映射表,并连续分配每一组关联数据中下层文档数据的文档编号。
3、数据的检索与排序
首先定义上层文档数据的排序属性以及下层文档数据的排序属性,之后解析用户输入的检索请求,形成上层数据和下层数据的筛选条件,以及结果中的总页号pageNum以及每页数据大小pageSize,检索结果需要返回上下层文档编号集合,根据筛选条件,进行如下的搜索处理:
(1)、对上层文档数据的每个筛选条件i,找该筛选条件对应的上层文档倒排表,使用检索条件中该筛选条件的词条属性,查找上层文档倒排表,获取到该词条属性对应的上层文档编号集合Ui,检索条件有N个则有N个文档号集合,Ui∈U,i∈[1,N],U为步骤(1)最终得到的上层文档编号集合;
(2)、对下层数据的每个筛选条件j,找到该筛选条件对应的下层文档倒排表,使用检索条件中该筛选条件的词条索引,查找下层文档倒排表,获取到该词条索引对应的下层文档编号集合Lj,使用Lj集合,获得下层文档数据所属上层文档数据的文档编号为Key的Map结构数据LMapj(上层文档编号为Key,下层文档编号集合为Value),如果检索条件有M个,则对M个LMapj求交集(先对Key值集合求交集,在对每个Key值对应的Value求交集),得到最终的Map结构数据LMapfinal;
(3)、对(1)步骤中得到的文档号集合U和(2)步骤中的LMapfinal中的上层文档编号集合进行归并求交得到最终的上层文档编号集合R(集合R每条记录中不单可以存放上层文档编号,还可以存放其他系统固定的显示属性与对应的显示属性值),集合R的每条记录结构见图4c;
(4)、在(3)步骤中生成集合R中数据的过程中,对每一条添加到集合R中的上层文档使用其文档编号,根据上层文档数据排序公式,使用文档号查询属性映射表,获取公式所需要的各个排序属性,完成公式计算得到分值socre并将该值存放到集合R中的对应记录里;
(5)、根据得到的score值,对集合R降序排序,截取pageNum*pageSize到(pageNum+1)*pageSize间的结果Rfinal;遍历该区间中包括的各结果记录Recored中的每个上层文档编号,进行如下处理:
A、查询(2)步骤中获取到的结果LMapfinal,得到每个上层文档编号在该筛选条件下的子文档编号的集合,将其设置为Recored中的一个显示条目;
B、根据检索请求中,要求返回的显示属性,查询文档号查询属性映射表,填充显示属性的属性值,将其设置为Recored中的一个显示条目;
(6)、返回Recored结果数据Rfinal给前端渲染展示。
基于本具体应用场景下的KTV预订检索系统,在支持门店数据自定义排序的同时,还同时支持门店、包厢数据的关联检索,以及检索结果包厢数据根据其所属门店的自动聚合,这使得该KTV预订检索系统不但可以更精确的筛选用户所期望的预订数据,也可以通过灵活的定义排序功能将最优质的KTV门店优先展示给用户,极大提高用户体验。
实施例五
图5为本发明实施例五提供的一种倒排索引结构的建立装置的结构示意图,如图5所示,所述装置包括:数据存储模块510以及倒排表建立模块520。
数据存储模块510,用于将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;
倒排表建立模块,用于根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
本发明实施例提供了一种倒排索引结构的建立装置,通过将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表的技术手段,所构造的倒排索引结构在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据存储技术,提出了一种关联数据存储的新思路。
在上述各实施例的基础上,所述上层文档倒排表中可以包括:上层词条索引,以及与所述上层词条索引对应的上层文档记录序列,其中,在上层文档记录中存储有包括上层词条索引的目标上层文档的文档编号,以及与所述目标上层文档关联的下层文档信息;
所述下层文档倒排表中可以包括:下层词条索引,以及与所述下层词条索引对应的下层文档记录序列,其中,在下层文档记录中存储有包括下层词条索引的目标下层文档的文档编号,以及与所述目标下层文档号关联的上层文档信息;其中,在所述存储空间中,不同文档对应不同的文档编号。
在上述各实施例的基础上,所述下层文档信息可以包括:下层文档的文档起始编号,以及编号偏移总量;所述上层文档信息可以包括:上层文档的文档编号。
在上述各实施例的基础上,将属于同一上层文档的至少一个下层文档可以连续存储于所述存储空间中连续的物理区块中;
所述上层文档记录可以按照包括的上层文档的文档编号从小到大的顺序在所述上层文档记录序列中进行存放,所述下层文档记录按照包括的下层文档的文档编号从小到大的顺序在所述下层文档记录序列中进行存放。
在上述各实施例的基础上,所述上层文档数据可以为KTV门店数据,所述下层文档数据可以为KTV包厢数据。
上述倒排索引结构的建立装置可执行本发明任意实施例所提供的倒排索引结构的建立方法,具备执行倒排索引结构的建立方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种关联检索装置的结构示意图,应用通过本发明实施例所述的倒排索引结构的建立装置所建立的倒排索引结构,如图6所示,所述装置包括:数据筛选条件获取模块610、文档编号集合获取模块620以及排序显示模块630,其中:
数据筛选条件获取模块610,用于解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;
文档编号集合获取模块620,用于根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;
排序显示模块630,用于按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
本发明实施例提供了一种关联检索装置,通过解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件;根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示的技术手段,在保证不同层级的关联数据高性能检索的同时,尽可能的降低了数据的更新成本,优化了现有的数据检索技术,高效实现了对不同层级数据的关联检索。
在上述各实施例的基础上,所述数据筛选条件可以包括:上层数据筛选条件以及下层数据筛选条件;
相应的,所述文档编号集合获取模块,可以包括:
第一上层文档编号集合获取单元,用于根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合;
第一目标Map结构数据获取单元,用于根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据,其中,所述第一目标Map结构数据中的Key为上层文档编号,所述第一目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合;
匹配文档编号集合获取单元,用于根据获取的所述第一上层文档编号集合以及所述第一目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
在上述各实施例的基础上,所述第一上层文档编号集合获取单元,具体可以用于:根据与至少两个所述上层数据筛选条件分别对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与各所述上层数据筛选条件分别对应的上层文档编号集合;
将获取的至少两个上层文档编号集合取交集,得到与所述上层数据筛选条件对应的第一上层文档编号集合。
在上述各实施例的基础上,所述第一目标Map结构数据获取单元,可以具体用于:根据与至少两个所述下层数据筛选条件分别对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取至少两个备选Map结构数据;
对所述至少两个备选Map结构数据中的包括的各Key取交集,得到目标Key;
将所述至少两个备选Map结构数据中包括与各目标Key分别对应的各Value取交集,得到目标Value;
根据所述目标Key以及所述目标Value,生成所述第一目标Map结构数据。
在上述各实施例的基础上,所述数据筛选条件包括:上层数据筛选条件;
相应的,所述文档编号集合获取模块,可以具体用于:
根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第二上层文档编号集合以及与所述第二上层文档编号集合对应的第二目标Map结构数据,其中,所述第二目标Map结构数据中的Key为上层文档编号,所述第二目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合;
根据所述第二目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
在上述各实施例的基础上,所述排序显示模块,可以包括:
属性值获取单元,用于根据所述排序算法确定至少一个排序属性,并在预存的文档号查询属性映射表中获取与各匹配上层文档编号对应的排序属性的属性值,其中,所述文档号查询属性映射表中存储有文档编号,以及与文档编号对应的至少一个排序属性的属性值;
上层文档排序单元,用于根据与各匹配上层文档编号分别对应的排序属性的属性值,计算与各匹配上层文档分别对应的排序得分值,并根据所述排序得分值,对各所述匹配上层文档进行排序;
待显示文档确定单元,用于根据页面显示属性,确定与当前页面对应的待显示匹配上层文档,并根据所述第一目标Map结构数据或者所述第二目标Map结构数据,获取与所述待显示匹配上层数据对应的待显示匹配下层文档;
搜索显示条目显示单元,用于根据所述待显示匹配上层文档以及所述待显示匹配下层文档构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
在上述各实施例的基础上,所述搜索显示条目显示单元,可以具体用于:
获取预先设定的第一显示属性,和/或与所述数据筛选条件对应的第二显示属性;
根据所述待显示上层文档的文档编号以及所述待显示下层文档的文档编号,查询文档号查询属性映射表,获取各所述待显示上层文档的所述第一显示属性的属性值,和/或所述第二显示属性的显示属性值;
根据所述待显示上层文档、所述待显示下层文档以及所述显示属性值构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
上述关联检索装置可执行本发明任意实施例所提供的关联检索方法,具备执行关联检索方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的倒排索引结构的建立方法。也即,所述处理单元执行所述程序时实现:将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
又例如:实现本发明实施例所提供的关联检索方法。也即,所述处理单元执行所述程序时实现:解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
实施例八
本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的倒排索引结构的建立方法:也即,该程序被处理器执行时实现:将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息;
或者,实现如本申请所有发明实施例提供的关联检索方法:也即,该程序被处理器执行时实现:解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种倒排索引结构的建立方法,其特征在于,包括:
将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;
根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
2.根据权利要求1所述的方法,其特征在于:
所述上层文档倒排表中包括:上层词条索引,以及与所述上层词条索引对应的上层文档记录序列,其中,在上层文档记录中存储有包括上层词条索引的目标上层文档的文档编号,以及与所述目标上层文档关联的下层文档信息;
所述下层文档倒排表中包括:下层词条索引,以及与所述下层词条索引对应的下层文档记录序列,其中,在下层文档记录中存储有包括下层词条索引的目标下层文档的文档编号,以及与所述目标下层文档号关联的上层文档信息;
其中,在所述存储空间中,不同文档对应不同的文档编号。
3.根据权利要求2所述的方法,其特征在于:
所述下层文档信息包括:下层文档的文档起始编号,以及编号偏移总量;
所述上层文档信息包括:上层文档的文档编号。
4.根据权利要求1所述的方法,其特征在于:
将属于同一上层文档的至少一个下层文档连续存储于所述存储空间中连续的物理区块中;
所述上层文档记录按照包括的上层文档的文档编号从小到大的顺序在所述上层文档记录序列中进行存放,所述下层文档记录按照包括的下层文档的文档编号从小到大的顺序在所述下层文档记录序列中进行存放。
5.根据权利要求1所述的方法,其特征在于:
所述上层文档数据为KTV门店数据,所述下层文档数据为KTV包厢数据。
6.一种关联检索方法,应用通过权利要求1-5任一项所述的方法所建立的倒排索引结构,其特征在于,包括:
解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;
根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;
按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
7.根据权利要求6所述的方法,其特征在于,所述数据筛选条件包括:上层数据筛选条件以及下层数据筛选条件;
根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合,包括:
根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合;
根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据,其中,所述第一目标Map结构数据中的Key为上层文档编号,所述第一目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合;
根据获取的所述第一上层文档编号集合以及所述第一目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
8.根据权利要求7所述的方法,其特征在于,根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第一上层文档编号集合,包括:
根据与至少两个所述上层数据筛选条件分别对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与各所述上层数据筛选条件分别对应的上层文档编号集合;
将获取的至少两个上层文档编号集合取交集,得到与所述上层数据筛选条件对应的第一上层文档编号集合。
9.根据权利要求7所述的方法,其特征在于,根据与所述下层数据筛选条件对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取与所述下层数据筛选条件对应的第一目标Map结构数据,包括:
根据与至少两个所述下层数据筛选条件分别对应的下层检索词条属性,查询所述倒排索引结构中的下层文档倒排表,获取至少两个备选Map结构数据;
对所述至少两个备选Map结构数据中的包括的各Key取交集,得到目标Key;
将所述至少两个备选Map结构数据中包括与各目标Key分别对应的各Value取交集,得到目标Value;
根据所述目标Key以及所述目标Value,生成所述第一目标Map结构数据。
10.根据权利要求6所述的方法,其特征在于,所述数据筛选条件包括:上层数据筛选条件;
根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合,包括:
根据与所述上层数据筛选条件对应的上层检索词条属性,查询所述倒排索引结构中的上层文档倒排表,获取与所述上层数据筛选条件对应的第二上层文档编号集合以及与所述第二上层文档编号集合对应的第二目标Map结构数据,其中,所述第二目标Map结构数据中的Key为上层文档编号,所述第二目标Map结构数据中的Value为与上层文档编号对应的下层文档编号集合;
根据所述第二目标Map结构数据,确定所述匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合。
11.根据权利要求7或10所述的方法,其特征在于,按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示,包括:
根据所述排序算法确定至少一个排序属性,并在预存的文档号查询属性映射表中获取与各匹配上层文档编号对应的排序属性的属性值,其中,所述文档号查询属性映射表中存储有文档编号,以及与文档编号对应的至少一个排序属性的属性值;
根据与各匹配上层文档编号分别对应的排序属性的属性值,计算与各匹配上层文档分别对应的排序得分值,并根据所述排序得分值,对各所述匹配上层文档进行排序;
根据页面显示属性,确定与当前页面对应的待显示匹配上层文档,并根据所述第一目标Map结构数据或者所述第二目标Map结构数据,获取与所述待显示匹配上层数据对应的待显示匹配下层文档;
根据所述待显示匹配上层文档以及所述待显示匹配下层文档构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
12.根据权利要求11所述的方法,其特征在于,根据所述待显示匹配上层文档以及所述待显示匹配下层文档构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示,包括:
获取预先设定的第一显示属性,和/或与所述数据筛选条件对应的第二显示属性;
根据所述待显示上层文档的文档编号以及所述待显示下层文档的文档编号,查询文档号查询属性映射表,获取各所述待显示上层文档的所述第一显示属性的属性值,和/或所述第二显示属性的显示属性值;
根据所述待显示上层文档、所述待显示下层文档以及所述显示属性值构造检索显示条目,并将各所述检索显示条目在所述当前页面中进行显示。
13.一种倒排索引结构的建立装置,其特征在于,包括:
数据存储模块,用于将具有层级关系的上层文档数据以及下层文档数据分别存储于不同的存储空间中;
倒排表建立模块,用于根据所述上层文档数据以及所述下层文档数据之间的关联关系,建立用于进行关联检索的上层文档倒排表以及下层文档倒排表;
其中,在所述上层文档倒排表中记录有与上层文档关联的下层文档的存储位置信息,在所述下层文档倒排表中记录有与下层文档关联的上层文档的存储位置信息。
14.一种关联检索装置,应用通过权利要求13所述的装置所建立的倒排索引结构,其特征在于,包括:
数据筛选条件获取模块,用于解析用户输入的关联检索请求,获取与所述关联检索请求对应的数据筛选条件,其中,所述数据筛选条件包括:上层数据筛选条件,和/或下层数据筛选条件;
文档编号集合获取模块,用于根据所述数据筛选条件,查询所述倒排索引结构,获取与所述数据筛选条件对应的匹配上层文档编号集合,以及与匹配上层文档编号对应的匹配下层文档编号集合;
排序显示模块,用于按照设定排序算法对与所述匹配上层文档编号集合对应的匹配上层文档进行排序,并将排序结果结合与所述匹配下层文档编号集合对应的匹配下层文档进行显示。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的倒排索引结构的建立方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的倒排索引结构的建立方法。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求6-12中任一所述的关联检索方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求6-12中任一所述的关联检索方法。
CN201710507870.1A 2017-06-28 2017-06-28 索引结构的建立、关联检索方法、装置、设备及存储介质 Active CN107341221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710507870.1A CN107341221B (zh) 2017-06-28 2017-06-28 索引结构的建立、关联检索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710507870.1A CN107341221B (zh) 2017-06-28 2017-06-28 索引结构的建立、关联检索方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107341221A true CN107341221A (zh) 2017-11-10
CN107341221B CN107341221B (zh) 2020-08-11

Family

ID=60221574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710507870.1A Active CN107341221B (zh) 2017-06-28 2017-06-28 索引结构的建立、关联检索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107341221B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563762A (zh) * 2018-04-18 2018-09-21 小草数语(北京)科技有限公司 倒排索引方法及装置
CN113448842A (zh) * 2021-06-03 2021-09-28 北京迈格威科技有限公司 大数据系统测试方法、装置、服务器及存储介质
CN113641815A (zh) * 2021-07-26 2021-11-12 武汉理工大学 一种基于大数据的数据筛选方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177117A (zh) * 2013-04-08 2013-06-26 北京奇虎科技有限公司 信息索引系统及信息索引的更新方法
CN103186537A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 一种基于索引排序的数据读写方法及装置
US8996531B1 (en) * 2010-09-12 2015-03-31 Giovanni M Sacco Inverted index and inverted list process for storing and retrieving information
US20170060856A1 (en) * 2008-12-10 2017-03-02 Chiliad Publishing Incorporated Efficient search and analysis based on a range index
CN106484813A (zh) * 2016-09-23 2017-03-08 广东港鑫科技有限公司 一种大数据分析系统及方法
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060856A1 (en) * 2008-12-10 2017-03-02 Chiliad Publishing Incorporated Efficient search and analysis based on a range index
US8996531B1 (en) * 2010-09-12 2015-03-31 Giovanni M Sacco Inverted index and inverted list process for storing and retrieving information
CN103186537A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 一种基于索引排序的数据读写方法及装置
CN103177117A (zh) * 2013-04-08 2013-06-26 北京奇虎科技有限公司 信息索引系统及信息索引的更新方法
CN106484813A (zh) * 2016-09-23 2017-03-08 广东港鑫科技有限公司 一种大数据分析系统及方法
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563762A (zh) * 2018-04-18 2018-09-21 小草数语(北京)科技有限公司 倒排索引方法及装置
CN113448842A (zh) * 2021-06-03 2021-09-28 北京迈格威科技有限公司 大数据系统测试方法、装置、服务器及存储介质
CN113448842B (zh) * 2021-06-03 2024-03-26 北京迈格威科技有限公司 大数据系统测试方法、装置、服务器及存储介质
CN113641815A (zh) * 2021-07-26 2021-11-12 武汉理工大学 一种基于大数据的数据筛选方法、装置及电子设备
CN113641815B (zh) * 2021-07-26 2023-06-13 武汉理工大学 一种基于大数据的数据筛选方法、装置及电子设备

Also Published As

Publication number Publication date
CN107341221B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US9779182B2 (en) Semantic grouping in search
US20160364770A1 (en) System for high volume data analytic integration and channel-independent advertisement generation
AU2014259978B2 (en) Tagged search result maintenance
US20170102866A1 (en) System for high volume data analytic integration and channel-independent advertisement generation
JP6192800B2 (ja) 個別のデータ値に対する効率よい演算を行うための方法、装置、並びにコンピュータ可読媒体
US8095434B1 (en) Automatically performing varying levels of summarization of geographic data points in response to a user's selection of zoom level
US9817863B1 (en) Attribute category enhanced search
US20210089573A1 (en) Systems, methods, and computer-readable products for track selection
US10984051B2 (en) System and method for querying a data repository
US20120117516A1 (en) Systems and methods for information management using socially vetted graphs
US20140164362A1 (en) Systems and Methods for Data Relationship Visualization
US8660901B2 (en) Matching of advertising sources and keyword sets in online commerce platforms
CN105630803B (zh) 文档型数据库建立索引的方法和装置
CN108509339A (zh) 基于浏览器和思维导图的测试用例生成方法、装置及设备
US20150073941A1 (en) Hotel finder interface
CN106663117A (zh) 构造支持提供探索性建议的图
CN108898351A (zh) 配送方选择方法、系统、介质和计算设备
CN107341221A (zh) 索引结构的建立、关联检索方法、装置、设备及存储介质
CN105761106A (zh) 一种基于用户设置进行对象排序的方法和装置
US20210165786A1 (en) Accessing datasets
CN102426569A (zh) 一种对物料数据进行筛选及排序的方法和设备
CN109635069A (zh) 一种基于信息熵的地理空间数据自组织方法
US9996535B1 (en) Efficient hierarchical user interface
US9547713B2 (en) Search result tagging
CN109672706A (zh) 一种信息推荐方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant