CN106339415A - 数据的查询方法、装置及系统 - Google Patents

数据的查询方法、装置及系统 Download PDF

Info

Publication number
CN106339415A
CN106339415A CN201610663700.8A CN201610663700A CN106339415A CN 106339415 A CN106339415 A CN 106339415A CN 201610663700 A CN201610663700 A CN 201610663700A CN 106339415 A CN106339415 A CN 106339415A
Authority
CN
China
Prior art keywords
resource
memory system
store path
distributed memory
resource number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610663700.8A
Other languages
English (en)
Other versions
CN106339415B (zh
Inventor
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongxiang Technical Service Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610663700.8A priority Critical patent/CN106339415B/zh
Publication of CN106339415A publication Critical patent/CN106339415A/zh
Application granted granted Critical
Publication of CN106339415B publication Critical patent/CN106339415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据的查询方法、装置及系统,涉及互联网技术领域,本发明的目的在于解决现有技术中MySQL等关系型数据库存储容量的限制无法满足大数据的存储、查询等操作的需求的问题。本发明的技术方案包括:接收包含查询关键词的数据查询请求;查找与所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;从所述分布式存储系统获取所述资源编号对应的所述预置资源。

Description

数据的查询方法、装置及系统
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据的查询方法、装置及系统。
背景技术
随着互联网技术的快速发展及广泛应用,越来越多的用户更加倾向于使用互联网进行日常工作、生活及学习,伴随着互联网在日常工作、生活、学习中的使用,通过互联网获取到的数据资源也越来越丰富,例如:在互联网上可以基于搜索引擎查询学业、事业上的所需,从而帮助用户的工作与学习。
用户在使用搜索引擎查询数据时,搜索引擎向服务器发送搜索关键词,服务器基于搜索关键词在本地数据库中进行查询,并将查询结果返回给搜索引擎。通常,为了便于服务器对数据库的管理,服务器的本地数据库常为关系型数据库,如MySQL,其具有体积小、速度快的特点;但是,关系型数据库的存储容量有限,对于varchar类型而言,其字段长度最大不超过65535字节。随着大数据时代的盛行,MySQL等关系型数据库存储容量的限制无法满足大数据的存储、查询等操作的需求,因此,扩展关系型数据库的存储容量是目前亟需解决的问题。
发明内容
有鉴于此,本发明提供的一种数据的查询方法、装置及系统,主要目的在于解决现有技术中MySQL等关系型数据库存储容量的限制无法满足大数据的存储、查询等操作的需求的问题。
第一方面,本发明提供了一种数据的查询方法,包括:
接收包含查询关键词的数据查询请求;
查找与所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;
从所述分布式存储系统获取所述资源编号对应的所述预置资源。
第二方面,本发明提供了一种数据的查询装置,包括:
接收单元,用于接收包含查询关键词的数据查询请求;
查找单元,用于查找与所述接收单元接收到的所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
请求单元,用于根据所述查找单元查找的所述资源存储路径向所述分布式存储系统请求对应的资源编号;
第一获取单元,用于从所述分布式存储系统获取所述请求单元请求的所述资源编号对应的所述预置资源。
第三方面,本发明提供了一种数据的查询系统,包括:
所述系统包括:关系型数据库、分布式存储系统;其中,
所述关系型数据库,用于接收包含查询关键词的数据查询请求,查找与所述查询关键词对应的资源存储路径,并根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
所述分布式存储系统,用于接收所述关系型数据库发送的获取所述资源存储路径对应的资源编号的请求,并向所述关系型数据库返回所述存储路径对应的资源编号;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述资源存储路径对应的资源编号,并根据所述资源编号向所述分布式存储系统请求对对应的预置资源;
所述分布式存储系统,还用于接收所述关系型数据库发送的所述获取所述资源编号对应的预置资源的请求,并向所述关系型数据库返回所述资源编号对应的预置资源;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述资源编号对应的预置资源。
借由上述技术方案,本发明提供的数据的查询方法、装置及系统,关系型数据库接收包含查询关键词的数据查询请求,并查找与该查询关键词对应的资源存储路径,该资源存储路径对应于分布式存储系统中的资源编号,该资源编号用于对分布式存储系统中的预置资源进行唯一标记,根据存储路径向分布式存储系统请求对应的资源编号,向分布式存储系统获取资源编号对应的预置资源;与现有技术中关系型数据库的存储容量无法满足大数据的存储、查询需求相比,本发明将预置资源转存到存储容量无上限的分布式存储系统中,扩展了存储预置资源的存储容量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据的查询方法的流程示意图;
图2示出了本发明实施例提供的一种分布式存储系统的架构示意图;
图3示出了本发明实施例提供的另一种数据的查询方法的流程示意图;
图4示出了本发明实施例提供的一种创建倒排索引的方法的流程示意图;
图5示出了本发明实施例提供的一种数据的查询装置的组成框图;
图6示出了本发明实施例提供的一种数据的查询装置的组成框图;
图7示出了本发明实施例提供的一种数据的查询系统的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中关系型数据库存储容量受限的问题,本发明实施例提供一种数据的查询方法。该方法可应用于用户在搜索引擎中输入查询关键词进行数据查询的过程中,也可以应用于编程人员在后台数据库中基于查询关键词进行数据查询的过程中,本实施例对其使用场景不作限制。
本发明实施例提供一种数据的查询方法,如图1所示,该方法包括:
101、接收包含查询关键词的数据查询请求。
为了搜索查询关键词对应预置资源的全面性,在关系型数据库接收到包含查询关键词的数据查询请求之后,对数据查询请求进行解析,获取其包含的查询关键词,并确定是否对该查询关键词进行分词处理,得到查询关键词对应的关键词分词,以在分布式存储系统中分别对关键词分词查找对应的预置资源,实现基于查询关键词的全面查找。在本发明实施例中,所述关系型数据库可以包含但不局限于以下内容,例如:Oracle、DB2、MicrosoftSQL Server、Microsoft Access、MySQL等;为便于表述,本发明实施例后续将关系型数据库MySQL为例进行说明,但应当明确的是,该种说明方式并非意在限定本发明实施例仅能使用关系型数据库MySQL进行数据的存储。
在实际应用中,有些查询关键词无需进行分词处理,有些查询关键词需要进行分词处理,示例性的,例如,搜索引擎中输入的查询关键词为“苹果”,搜索引擎中输入的查询关键词为“如何快速获取数据库中的数据”等等,对查询关键词进行分词时,基于预设词库匹配算法对所述查询关键词进行分词,有关基于预设词库匹配算法对查询关键词进行分词的实现,请参考现有技术中的详细描述,本发明实施例在此不再进行一一赘述。
若搜索引擎对应的服务器接收到查询关键词,则服务器需要基于该查询关键词向关系型数据库发送包含查询关键词的数据查询请求;若在关系型数据库中查询预置资源,则直接在分布式存储系统的搜索框内输入查询关键词即可。例如,某杀毒应用程序(APP)对应的分布式存储系统中,查询某个杀毒样本在XX时间段内对APP安装载体(如计算机设备、智能移动终端设备等等)的拦截病毒的具体操作,可以在关系型数据库MySQL中直接执行查询操作等等。
102、查找与所述查询关键词对应的资源存储路径。
其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记。
需要说明的是,所述资源存储路径存储于关系型数据库中,每个关键词分词或者查询关键词对应一个资源存储路径,关键词分词或者查询关键词的数据量较大,其对应的资源存储路径也较大,资源存储路径对应的资源编号及预置资源占用的存储空间更大。由于关系型数据库存储容量受限,在本发明实施例中仅将资源存储路径存储于关系型数据库中,通过二维表标明关键词分词或者查询关键词与资源存储路径之间的对应关系,关系型数据库MySQL中存储的资源存储路径既不会达到MySQL的存储上限,又能够根据关键词分词或者查询关键词快速获取其对应的资源存储路径,以便向分布式存储系统获取该资源存储路径获取对应的资源编号。
在实际应用中,所述分布式存储系统为Hadoop分布式文件系统(HadoopDistributed File System,hdfs),hdfs具有高容错性的特点,适用于将其部署于低廉的硬件设备上,且具有较高的吞吐量,支持访问百万级、千万级、亿级的访问量。但应当明确的是,该种说明方式并非意在限定本发明实施例所述的分布式存储系统仅能为hdfs。
如表1所示,表1示出了本发明实施例提供的一种关系型数据库中MySQL存储查询关键词与资源存储路径(path)的对应关系,确定出资源存储路径。hdfs部署于通用硬件设备上,该通用硬件均有唯一的IP地址,因此,在关系型数据库MySQL获取到资源存储路径IP地址后,向资源存储路径IP地址对应的分布式存储系统发送资源编号的请求。如图2所示,图2示出了本发明实施例提供的一种分布式存储系统的架构示意图,为了拓展分布式存储系统的存储容量,可以对hdfs执行横向拓展,使得hdfs的存储容量几乎是没有存储上限的,可以不限个数在分布式存储系统中部署包含hdfs的通用硬件设备,支持千万级、亿级数据的存储、查询。其中,表1及图2仅为示例性的举例,本发明实施例对关系型数据库存储查询关键词、资源存储路径的方式、分布式存储系统中存储节点的个数及其相互之间的连接关系不作限定。
表1
103、根据所述资源存储路径向所述分布式存储系统请求对应的资源编号。
在实际应用中,一个关键词分词或者查询关键词在数据库中对应的内容较多,若一个关键词分词或者查询关键词对应千万级或者十亿级数据(预置资源),而该千万级或者十亿级数据需要通过对应个数的资源编号进行标记,以便于关系型数据库MySQL根据资源编号快速获取预置资源。将资源编号存储于hdfs,其目的在于,大量的资源编号存储于关系型数据库MySQL中会占用其存储空间,影响关系型数据库MySQL对数据查询请求的响应速度,将资源编号存储于hdfs中以节省关系型数据库MySQL有限的存储空间,此外,关系型数据库MySQL有足够的存储空间,在一定程度上能够提高响应数据查询请求的速度。
在关系型数据库MySQL获取到资源存储路径后,向hdfs发送获取资源存储路径对应资源编号的请求,以获取查询关键词对应的预置资源,需要说明的是,一个关键词分词或者查询关键词对应一个资源存储路径,一个资源存储路径对应多个资源编号,在hdfs获取到该资源存储路径对应的资源编号后,将该资源存储路径下对应的所有资源编号都返回给查询用户。
104、从所述分布式存储系统获取所述资源编号对应的所述预置资源。
在接收到hdfs返回的资源编号后,根据该资源编号向hfds获取其对应的所有预置资源。本发明实施例所述的预置资源可以包含但不局限于网页数据、视频、音频、文件、文档资源等等。
本发明实施例提供的数据的查询装置及系统,关系型数据库接收包含查询关键词的数据查询请求,并查找与该查询关键词对应的资源存储路径,该资源存储路径对应于分布式存储系统中的资源编号,该资源编号用于对分布式存储系统中的预置资源进行唯一标记,根据存储路径向分布式存储系统请求对应的资源编号,向分布式存储系统获取资源编号对应的预置资源;与现有技术中关系型数据库的存储容量无法满足大数据的存储、查询需求相比,本发明实施例将预置资源转存到存储容量无上限的分布式存储系统中,扩展了存储预置资源的存储容量。
进一步的,一个关键词分词或者查询关键词对应多个资源编号,为了对该些资源编号进行统一管理,确定资源编号与预置资源对应关系的正确率,本发明实施例提供一种数据的查询方法,如图3所示,包括:
301、接收包含查询关键词的数据查询请求(对应于步骤101)。
302、查找与所述查询关键词对应的资源存储路径(对应于步骤102)。
303、根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表。
在关系型数据库MySQL根据查询关键词确定其对应的资源存储路径之后,根据该资源存储路径获取分布式存储系统中对应的记录资源编号的编号列表,该编号列表中以列表形式按照预置资源的发表时间先后顺序记录资源编号。
在实际应用中,编号列表可存储于关系型数据库MySQL默认的存储路径下,当关系型数据库MySQL基于表1确认资源存储路径path之后,向IP地址对应的分布式存储系统发送获取编号列表的请求,分布式存储系统从编号列表默认的存储路径下获取该编号列表,本发明实施例对编号列表在分布式存储系统中的存储位置不作限定。
示例性的,如表2所示,表2示出了本发明实施例提供的一种编号列表,该编号列表与资源存储路径对应,资源存储路径与查询关键词对应,
因此,关系型数据库中的查询关键词实质对应的是分布式存储系统中记录的编号列表。通过编号列表list对资源编号进行统一管理,确定查询关键词与资源编号之间对应关系的准确性,进而提高了查询的准确性。可选的,在资源编号进行分配时,可以预置资源对应的资源类型进行说明,例如,对于list1中对应的资源编号ID:Doc ID1,其对应的预置资源类型为doc文档;资源编号ID:MP3ID2,其对应的预置资源类型为MP3音频。表2仅为示例性的举例,本发明实施例对此不作限定。
表2
304、根据所述编号列表向所述分布式存储系统请求对应的资源编号。
承由表2,当根据编号列表之后,向分布式存储系统请求其对应的资源编号,以便获取该资源编号对应的预置资源。
305、从所述分布式存储系统获取所述资源编号对应的所述预置资源(对应于步骤104)。
进一步的,作为对上述所述方法的细化和扩展,在执行步骤304根据编号列表获取资源编号时,可以采用但不局限于以下方法实现,例如:获取数据查询请求中的查询数据时间段,查找编号列表中与查询数据时间段对应的资源编号。在实际应用中,若数据查询请求中包含需获取预置资源的查询数据时间段,则根据该查询数据时间段获取响应的预置资源;若数据查询请求中未包含需获取预置资源的查询数据时间段,则可以根据分布式系统中存储预置资源的先后顺序返回对应的预置资源。
进一步的,关系型数据库MySQL向分布式存储系统hdfs发送获取预置资源的请求的前提为该分布式存储系统hdfs中存储有与查询关键词对应的预置资源,因此,图4示出了本发明实施例提供的一种创建倒排索引的方法的流程示意图,具体过程如图4所示,包括:
401、获取历史查询关键词,并根据所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源。
在执行创建倒排索引之前,预置资源全部存储于分布式存储系统中,但是该些预置资源的存储是杂乱无章,为了提高查询速度,当关系型数据库首次基于查询关键词向分布式存储系统首次查询预置资源时,分布式存储系统根据该历史查询关键词,爬取分布式存储系统中所有包含该历史查询关键词的预置资源。
在分布式存储系统爬取历史查询关键词对应的预置资源时,可以使用任意类型的爬虫技术自动获取预置资源,本发明实施例对爬虫工具的类型不作限定。
402、对所述所有预置资源分配资源编号,并将所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中。
为爬取到的所有预置资源分配资源编号,在对所有的预置资源分配资源编号时,不同的历史查询关键词分配不同的资源编号,所述资源编号可以包含但不局限于阿拉伯数字编号、英文顺序或英文组合编号、编号中添加预置资源的具体类型等形式,具体的,本发明实施例对此不作限定。
403、基于所述编号列表生成资源存储路径。
所述资源存储路径为预置资源在分布式存储系统中的存储路径,该资源存储路径存储于关系型数据库中。
404、记录所述资源存储路径与历史查询关键字之间的对应关系。
需要说明的是,在图4所示方式创建倒排索引的顺序为:预置资源->资源编号->编号列表->存储路径->历史查询关键词,而关系型数据库在接收到查询关键词时,执行查询的顺序为:查询关键词->资源存储路径->编号列表->资源编号->预置资源。
进一步的,作为对上述图1所示方法的实现,本发明另一实施例还提供了一种数据的查询装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供一种数据的查询装置,如图5所示,包括:
接收单元51,用于接收包含查询关键词的数据查询请求;
查找单元52,用于查找与所述接收单元51接收到的所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
请求单元53,用于根据所述查找单元52查找的所述资源存储路径向所述分布式存储系统请求对应的资源编号;
第一获取单元54,用于从所述分布式存储系统获取所述请求单元53请求的所述资源编号对应的所述预置资源。
进一步的,如图6所示,所述请求单元53包括:
请求模块531,用于根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表,所述编号列表根据所述预置资源的发表时间顺序记录所述资源编号;
获取模块532,用于根据所述请求模块请求的所述编号列表获取所述资源编号。
进一步的,如图6所示,所述获取模块532包括:
获取子模块5321,用于获取所述数据查询请求中的查询数据时间段;
查找子模块5322,用于查找所述编号列表中与所述获取子模块5321获取的所述查询数据时间段对应的所述资源编号。
进一步的,如图6所示,所述装置还包括:
第二获取单元55,用于获取历史查询关键词;
爬取单元56,用于根据所述第二获取单元55获取的所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源;
分配单元57,用于对所述爬取单元56爬取的所述所有预置资源分配资源编号;
第一记录单元58,用于将所述分配单元57分配的所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中;
生成单元59,用于基于所述第一记录单元58记录的所述编号列表生成资源存储路径;
第二记录单元510,用于记录所述生成单元59生成的所述资源存储路径与历史查询关键字之间的对应关系。
进一步的,所述分布式存储系统为Hadoop分布式文件系统。
进一步的,本发明实施例还提供一种数据的查询系统,如图7所示,所述系统包括:关系型数据库71及分布式存储系统72;其中,
所述关系型数据库71,用于接收包含查询关键词的数据查询请求,查找与所述查询关键词对应的资源存储路径,并根据所述资源存储路径向所述分布式存储系统72请求对应的资源编号;其中,所述资源存储路径对应于分布式存储系统72中的资源编号,所述资源编号用于对所述分布式存储系统72中的预置资源进行唯一标记;
所述分布式存储系统72,用于接收所述关系型数据库71发送的获取所述资源存储路径对应的资源编号的请求,并向所述关系型数据库71返回所述资源存储路径对应的资源编号;
所述关系型数据库71,还用于接收所述分布式存储系统72返回的所述存储路径对应的资源编号,并根据所述资源编号向所述分布式存储系统72请求对对应的预置资源;
所述分布式存储系统72,还用于接收所述关系型数据库71发送的所述获取所述资源编号对应的预置资源的请求,并向所述关系型数据库71返回所述资源编号对应的预置资源;
所述关系型数据库71,还用于接收所述分布式存储系统72返回的所述资源编号对应的预置资源。
本发明实施例提供的数据的查询装置及系统,关系型数据库接收包含查询关键词的数据查询请求,并查找与该查询关键词对应的资源存储路径,该资源存储路径对应于分布式存储系统中的资源编号,该资源编号用于对分布式存储系统中的预置资源进行唯一标记,根据存储路径向分布式存储系统请求对应的资源编号,向分布式存储系统获取资源编号对应的预置资源;与现有技术中关系型数据库的存储容量无法满足大数据的存储、查询需求相比,本发明实施例将预置资源转存到存储容量无上限的分布式存储系统中,扩展了存储预置资源的存储容量。
本发明实施例还公开了:
A1、一种数据的查询方法,包括:
接收包含查询关键词的数据查询请求;
查找与所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;
从所述分布式存储系统获取所述资源编号对应的所述预置资源。
A2、根据A1所述的方法,根据所述资源存储路径向所述分布式存储系统请求对应的资源编号的步骤包括:
根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表,所述编号列表根据所述预置资源的发表时间顺序记录所述资源编号;
根据所述编号列表获取所述资源编号。
A3、根据A2所述的方法,根据所述编号列表获取所述资源编号的步骤包括:
获取所述数据查询请求中的查询数据时间段;
查找所述编号列表中与所述查询数据时间段对应的所述资源编号。
A4、根据A1-A3中任一项所述的方法,所述方法还包括:
获取历史查询关键词,并根据所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源;
对所述所有预置资源分配资源编号,并将所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中;
基于所述编号列表生成资源存储路径;
记录所述资源存储路径与历史查询关键字之间的对应关系。
A5、根据A1-A3中任一项所述的方法,所述分布式存储系统为Hadoop分布式文件系统。
B6、一种数据的查询装置,包括:
接收单元,用于接收包含查询关键词的数据查询请求;
查找单元,用于查找与所述接收单元接收到的所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
请求单元,用于根据所述查找单元查找的所述资源存储路径向所述分布式存储系统请求对应的资源编号;
第一获取单元,用于从所述分布式存储系统获取所述请求单元请求的所述资源编号对应的所述预置资源。
B7、根据B6所述的装置,所述请求单元包括:
请求模块,用于根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表,所述编号列表根据所述预置资源的发表时间顺序记录所述资源编号;
获取模块,用于根据所述请求模块请求的所述编号列表获取所述资源编号。
B8、根据B7所述的装置,所述获取模块包括:
获取子模块,用于获取所述数据查询请求中的查询数据时间段;
查找子模块,用于查找所述编号列表中与所述获取子模块获取的所述查询数据时间段对应的所述资源编号。
B9、根据B6-B8中任一项所述的装置,所述装置还包括:
第二获取单元,用于获取历史查询关键词;
爬取单元,用于根据所述第二获取单元获取的所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源;
分配单元,用于对所述爬取单元爬取的所述所有预置资源分配资源编号;
第一记录单元,用于将所述分配单元分配的所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中;
生成单元,用于基于所述第一记录单元记录的所述编号列表生成资源存储路径;
第二记录单元,用于记录所述生成单元生成的所述资源存储路径与历史查询关键字之间的对应关系。
B10、根据B6-B8中任一项所述的装置,所述分布式存储系统为Hadoop分布式文件系统。
C11、一种数据的查询系统,所述系统包括:关系型数据库、分布式存储系统;其中,
所述关系型数据库,用于接收包含查询关键词的数据查询请求,查找与所述查询关键词对应的资源存储路径,并根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
所述分布式存储系统,用于接收所述关系型数据库发送的获取所述存储路径对应的资源编号的请求,并向所述关系型数据库返回所述存储路径对应的资源编号;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述存储路径对应的资源编号,并根据所述资源编号向所述分布式存储系统请求对对应的预置资源;
所述分布式存储系统,还用于接收所述关系型数据库发送的所述获取所述资源编号对应的预置资源的请求,并向所述关系型数据库返回所述资源编号对应的预置资源;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述资源编号对应的预置资源。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据的查询方法,其特征在于,包括:
接收包含查询关键词的数据查询请求;
查找与所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;
从所述分布式存储系统获取所述资源编号对应的所述预置资源。
2.根据权利要求1所述的方法,其特征在于,根据所述资源存储路径向所述分布式存储系统请求对应的资源编号的步骤包括:
根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表,所述编号列表根据所述预置资源的发表时间顺序记录所述资源编号;
根据所述编号列表获取所述资源编号。
3.根据权利要求2所述的方法,其特征在于,根据所述编号列表获取所述资源编号的步骤包括:
获取所述数据查询请求中的查询数据时间段;
查找所述编号列表中与所述查询数据时间段对应的所述资源编号。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
获取历史查询关键词,并根据所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源;
对所述所有预置资源分配资源编号,并将所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中;
基于所述编号列表生成资源存储路径;
记录所述资源存储路径与历史查询关键字之间的对应关系。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述分布式存储系统为Hadoop分布式文件系统。
6.一种数据的查询装置,其特征在于,包括:
接收单元,用于接收包含查询关键词的数据查询请求;
查找单元,用于查找与所述接收单元接收到的所述查询关键词对应的资源存储路径;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
请求单元,用于根据所述查找单元查找的所述资源存储路径向所述分布式存储系统请求对应的资源编号;
第一获取单元,用于从所述分布式存储系统获取所述请求单元请求的所述资源编号对应的所述预置资源。
7.根据权利要求6所述的装置,其特征在于,所述请求单元包括:
请求模块,用于根据所述资源存储路径向所述分布式存储系统请求用于记录所述资源编号的编号列表,所述编号列表根据所述预置资源的发表时间顺序记录所述资源编号;
获取模块,用于根据所述请求模块请求的所述编号列表获取所述资源编号。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
获取子模块,用于获取所述数据查询请求中的查询数据时间段;
查找子模块,用于查找所述编号列表中与所述获取子模块获取的所述查询数据时间段对应的所述资源编号。
9.根据权利要求6-8中任一项所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取历史查询关键词;
爬取单元,用于根据所述第二获取单元获取的所述历史查询关键词爬取所述分布式存储系统中,包含所述历史查询关键词的所有预置资源;
分配单元,用于对所述爬取单元爬取的所述所有预置资源分配资源编号;
第一记录单元,用于将所述分配单元分配的所述资源编号按照所述预置资源的发表时间顺序记录于编号列表中;
生成单元,用于基于所述第一记录单元记录的所述编号列表生成资源存储路径;
第二记录单元,用于记录所述生成单元生成的所述资源存储路径与历史查询关键字之间的对应关系。
10.一种数据的查询系统,其特征在于,所述系统包括:关系型数据库、分布式存储系统;其中,
所述关系型数据库,用于接收包含查询关键词的数据查询请求,查找与所述查询关键词对应的资源存储路径,并根据所述资源存储路径向所述分布式存储系统请求对应的资源编号;其中,所述资源存储路径对应于分布式存储系统中的资源编号,所述资源编号用于对所述分布式存储系统中的预置资源进行唯一标记;
所述分布式存储系统,用于接收所述关系型数据库发送的获取所述存储路径对应的资源编号的请求,并向所述关系型数据库返回所述存储路径对应的资源编号;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述存储路径对应的资源编号,并根据所述资源编号向所述分布式存储系统请求对对应的预置资源;
所述分布式存储系统,还用于接收所述关系型数据库发送的所述获取所述资源编号对应的预置资源的请求,并向所述关系型数据库返回所述资源编号对应的预置资源;
所述关系型数据库,还用于接收所述分布式存储系统返回的所述资源编号对应的预置资源。
CN201610663700.8A 2016-08-12 2016-08-12 数据的查询方法、装置及系统 Active CN106339415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610663700.8A CN106339415B (zh) 2016-08-12 2016-08-12 数据的查询方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610663700.8A CN106339415B (zh) 2016-08-12 2016-08-12 数据的查询方法、装置及系统

Publications (2)

Publication Number Publication Date
CN106339415A true CN106339415A (zh) 2017-01-18
CN106339415B CN106339415B (zh) 2019-08-23

Family

ID=57824434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610663700.8A Active CN106339415B (zh) 2016-08-12 2016-08-12 数据的查询方法、装置及系统

Country Status (1)

Country Link
CN (1) CN106339415B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188607A1 (zh) * 2017-04-11 2018-10-18 华为技术有限公司 流处理方法及装置
CN109284290A (zh) * 2018-09-20 2019-01-29 佛山科学技术学院 一种基于分布式储存空间的数据读取方法
CN110209853A (zh) * 2019-06-14 2019-09-06 重庆紫光华山智安科技有限公司 车辆的图片搜索方法、装置和设备
CN112286997A (zh) * 2020-11-25 2021-01-29 平安数字信息科技(深圳)有限公司 基于分布式部署的薪酬数据查询方法及相关设备
CN112995285A (zh) * 2018-03-29 2021-06-18 北京忆芯科技有限公司 基于区块技术的分布式kv存储系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867056A (zh) * 2012-09-18 2013-01-09 王楚云 关键词搜索方法及系统
CN103544261A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种海量结构化日志数据全局索引管理方法及装置
CN104123359A (zh) * 2014-07-17 2014-10-29 江苏省邮电规划设计院有限责任公司 一种分布式对象存储系统的资源管理方法
CN104376014A (zh) * 2013-08-15 2015-02-25 中国科学院声学研究所 一种结构化p2p网络中的资源发布及查询方法
CN105208078A (zh) * 2015-08-13 2015-12-30 飞狐信息技术(天津)有限公司 一种文件存储系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867056A (zh) * 2012-09-18 2013-01-09 王楚云 关键词搜索方法及系统
CN104376014A (zh) * 2013-08-15 2015-02-25 中国科学院声学研究所 一种结构化p2p网络中的资源发布及查询方法
CN103544261A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种海量结构化日志数据全局索引管理方法及装置
CN104123359A (zh) * 2014-07-17 2014-10-29 江苏省邮电规划设计院有限责任公司 一种分布式对象存储系统的资源管理方法
CN105208078A (zh) * 2015-08-13 2015-12-30 飞狐信息技术(天津)有限公司 一种文件存储系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188607A1 (zh) * 2017-04-11 2018-10-18 华为技术有限公司 流处理方法及装置
CN112995285A (zh) * 2018-03-29 2021-06-18 北京忆芯科技有限公司 基于区块技术的分布式kv存储系统
CN112995285B (zh) * 2018-03-29 2023-04-18 北京忆芯科技有限公司 基于区块技术的分布式kv存储系统
CN109284290A (zh) * 2018-09-20 2019-01-29 佛山科学技术学院 一种基于分布式储存空间的数据读取方法
CN109284290B (zh) * 2018-09-20 2022-04-26 佛山科学技术学院 一种基于分布式储存空间的数据读取方法
CN110209853A (zh) * 2019-06-14 2019-09-06 重庆紫光华山智安科技有限公司 车辆的图片搜索方法、装置和设备
CN112286997A (zh) * 2020-11-25 2021-01-29 平安数字信息科技(深圳)有限公司 基于分布式部署的薪酬数据查询方法及相关设备
CN112286997B (zh) * 2020-11-25 2024-04-16 深圳平安智汇企业信息管理有限公司 基于分布式部署的薪酬数据查询方法及相关设备

Also Published As

Publication number Publication date
CN106339415B (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN106339415A (zh) 数据的查询方法、装置及系统
US8645355B2 (en) Mapping Uniform Resource Locators of different indexes
KR101037144B1 (ko) 검색 결과의 향상
US20090063448A1 (en) Aggregated Search Results for Local and Remote Services
JP2016181306A (ja) 索引キーを使用して検索を絞込むシステムおよび方法
CN105653901A (zh) 一种组件仓库管理的方法及系统
CN106407303A (zh) 数据存储、查询方法及装置
KR20120101365A (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
CN103379129A (zh) 一种数据同步方法、服务器及分布式系统
CN102164186A (zh) 一种实现云搜索服务的方法及系统
JP2010536086A (ja) ユーザ中心の情報探索方法およびシステム
US20140019454A1 (en) Systems and Methods for Caching Data Object Identifiers
CN104423982A (zh) 请求的处理方法和处理设备
CN107085613A (zh) 入库文件的过滤方法和装置
CN102508884A (zh) 热点事件与实时评论的获取方法及装置
CN105468644A (zh) 一种用于在数据库中进行查询的方法与设备
US20090006354A1 (en) System and method for knowledge based search system
CN103559307A (zh) 一种查询的缓存方法及装置
CN102937977A (zh) 一种搜索服务器及搜索方法
CN109086414B (zh) 用于搜索区块链数据的方法、装置及存储介质
Sarkar et al. Query language support for timely data deletion
US8996512B2 (en) Search engine optimization using a find operation
CN108234392B (zh) 一种网站的监控方法及装置
CN117557394A (zh) 智能对账方法、系统、设备及储存介质
CN104021192A (zh) 一种数据库更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211206

Address after: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, high tech Zone, Binhai New Area, Tianjin

Patentee after: 3600 Technology Group Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230628

Address after: 1765, floor 17, floor 15, building 3, No. 10 Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: Beijing Hongxiang Technical Service Co.,Ltd.

Address before: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, high tech Zone, Binhai New Area, Tianjin

Patentee before: 3600 Technology Group Co.,Ltd.