CN105095458A - 一种基于时间特征支持复杂条件的大数据检索方法 - Google Patents
一种基于时间特征支持复杂条件的大数据检索方法 Download PDFInfo
- Publication number
- CN105095458A CN105095458A CN201510454526.1A CN201510454526A CN105095458A CN 105095458 A CN105095458 A CN 105095458A CN 201510454526 A CN201510454526 A CN 201510454526A CN 105095458 A CN105095458 A CN 105095458A
- Authority
- CN
- China
- Prior art keywords
- index
- retrieval
- user
- time
- solr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种基于时间特征的支持复杂条件的大数据检索方法,按照数据保存时产生的时间戳或者根据用户自定义的时间特征,将数据信息按照时间特性进行切分,在全文检索引擎Solr上以不同的集群Collection建立索引,在用户已经知晓所查询信息产生的时间的情况下,可以快速的定位到当月的集群Collection的索引库中进行检索,可以大大缩小检索的范围,提升了效率;在用户无法确定信息产生的时间的情况下,将符合用户查询的结果提供给用户参考和选择;本发明不仅弥补了分布式数据库HBase没有二级索引的劣势,而且使得索引的创建更加灵活,满足不同需求情况下的检索,并且检索的效率能够得到保证。
Description
技术背景
本发明涉及一种基于时间特征支持复杂条件的大数据检索方法。
背景技术
在大数据的环境下,根据用户提供的条件快速和准确的检索到用户关心和感兴趣的信息,是大数据应用的基础和重要的组成部分。目前,大数据的检索主要存在两个不足:首先,在大数据环境下,为了提供最佳的查询性能,一般都采用软硬一体的大数据一体机,这样项目的成本显著提升;其次,在数据量递增和集群扩展后,检索的性能降低的趋势明显。
发明内容
本发明的目的在于提供一种基于时间特征的支持复杂条件的大数据检索方法,可以满足用户各种不同情况下多条件组合以及复杂条件的检索需求,并且能够保证在数据和集群不断递增情况下,依然能够保持良好的性能。
本发明一种基于时间特征的支持复杂条件的大数据检索方法,具体包括如下步骤:
步骤1、数据的存储:
(1)将业务数据完整地保存至分布式数据库HBase中;
(2)根据该业务数据在全文检索引擎Solr中创建对应的索引:
在全文检索引擎Solr中创建索引时,根据业务数据的时间特征判断所要保存的集群Collection是否已经存在,如果不存在则先创建集群Collection,集群Collection的命名按照制定的时间规则,然后保存Solr索引,如果已经存在,则直接保存Solr索引;
步骤2、数据的查询:
(1)查询全文检索引擎Solr获取分布式数据库HBase的Rowkey值:
根据用户提供的多字段或者复杂的查询条件,判断查询条件中是否包含时间特征,如果存在,获取需要查询的集群Collection信息,即先确定具体需要查询哪几个时间分段索引,从中检索符合用户需求的Rowkey值集合;如果不存在,则利用组合索引,根据具体业务情况检索时间区间内的索引,甚至全部索引,以获取符合条件的Rowkey值集合;
(2)在获取到Rowkey值集合后,根据Rowkey值在分布式数据库HBase中查询,获取完整的业务数据,并将其作为结果集返回给用户。
目前,在大数据应用中,其数据信息都保存有时间特征,即时间戳。本发明按照数据保存时产生的时间戳或者根据用户自定义的时间特征,将数据信息按照时间特性进行切分,在全文检索引擎Solr上以不同的集群Collection建立索引,在用户已经知晓所查询的信息产生的时间的情况下,可以快速的定位到当月的集群Collection的索引库中进行检索,可以大大缩小了检索的范围,提升了效率;在用户无法确定信息产生的时间的情况下,将符合用户查询的结果按信息产生的时间的倒叙进行排列,作为用户默认的排序方式,并把排完序后的信息提供给用户参考和选择。本发明不仅弥补了分布式数据库HBase没有二级索引的劣势,而且使得索引的创建更加灵活,满足不同需求情况下的检索,并且检索的效率能够得到保证。在大数据应用中,不仅能够满足用户各种情况下的多条件和复杂条件的检索需求,而且能够保持高效性,避免在数据量和集群扩展后出现性能急剧下降的情况。
附图说明
图1为本发明中数据入库和创建索引的流程图;
图2为本发明中数据查询的流程图。
以下结合附图和实施例对本发明作进一步详述。
具体实施方式
目前,在大数据应用中,其数据信息都保存有时间特征,即时间戳。本发明按照数据保存时产生的时间戳或者根据用户自定义的时间特征,将数据信息按照时间特性进行切分,在全文检索引擎Solr上以不同的集群Collection建立索引,例如可以按照年月,在用户已经知晓所查询的信息产生的时间的情况下,可以快速的定位到当月的集群Collection的索引库中进行检索,可以大大缩小检索的范围,提升了效率;在用户无法确定信息产生的时间的情况下,将符合用户查询的结果按信息产生的时间进行倒叙排列,作为用户默认的排序方式,并把排完序后的信息提供给用户参考和选择。本发明不仅弥补了分布式数据库HBase没有二级索引的劣势,而且使得索引的创建更加灵活,满足不同需求情况下的检索,并且检索的效率能够得到保证。
本发明一种基于时间特征的支持复杂条件的大数据检索方法,具体包括如下步骤:
步骤1、如图1所示,数据的存储:
(1)将业务数据完整地保存至分布式数据库HBase中;
(2)根据该业务数据在全文检索引擎Solr中创建对应的索引:
在全文检索引擎Solr中创建索引时,根据业务数据的时间特征判断所要保存的集群Collection是否已经存在,如果不存在则先创建集群Collection,集群Collection的命名按照制定的时间规则,然后保存Solr索引,如果已经存在,则直接保存Solr索引;
所述的时间规则按照时间特征对数据实现分段索引,具体内容如下所示:
(1)指定时间特征值的参照标准,即标准时间,本发明以Java里通用的1970年1月1日作为参照时间;
(2)设置时间特征的间隔单位,根据具体的业务系统实际产生的数据量多少的情况,制定划分数据的时间单位,当产生的数据量特别巨大时,可以以较短的时间周期为一个时间单位,例如天、周等;当产生数据量不是很大时,采用较长的时间周期为一个时间单位,例如月、年;
(3)可以是数据主题名称与和标准时间相差的时间单位的个数为后缀,例如:topic_123等
(4)按照时间特征的组合索引:
根据具体业务对数据的使用频度和使用的状况,按照当前的时间特征的分段单位进行各种不同的组合,以满足各种不同的需求,例如:最近一个月,三个月,半年等;或者按照前一步骤组合好的特征时间段,分别建立不同的别名,方便进行查询使用。采用这种索引组合的形式,灵活的适应了各种不同时间段的业务需求。
步骤2、如图2所示,数据的查询:
(1)查询全文检索引擎Solr获取分布式数据库HBase的Rowkey值:
根据用户提供的多字段或者复杂的查询条件,判断查询条件中是否包含时间特征,如果存在,则根据制定的时间规则,获取需要查询的集群Collection信息,即先确定具体需要查询哪几个时间分段索引,从中检索符合用户需求的Rowkey值集合;如果不存在,则充分利用组合索引,根据具体业务情况检索最近三个月、最近一年、最近三年、甚至全部索引等,获取符合条件的Rowkey集合,这里采用基于时间特征的查询大大缩小了数据检索的范围,提高了查询的性能;
(2)在获取到Rowkey值集合后,根据Rowkey值在分布式数据库HBase中查询,便可快速的获取到完整的业务数据,将其作为结果集返回给用户。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (1)
1.一种基于时间特征的支持复杂条件的大数据检索方法,其特征在于包括如下步骤:
步骤1、数据的存储:
(1)将业务数据完整地保存至分布式数据库HBase中;
(2)根据该业务数据在全文检索引擎Solr中创建对应的索引:
在全文检索引擎Solr中创建索引时,根据业务数据的时间特征判断所要保存的集群Collection是否已经存在,如果不存在则先创建集群Collection,集群Collection的命名按照制定的时间规则,然后保存Solr索引,如果已经存在,则直接保存Solr索引;
步骤2、数据的查询:
(1)查询全文检索引擎Solr获取分布式数据库HBase的Rowkey值:
根据用户提供的多字段或者复杂的查询条件,判断查询条件中是否包含时间特征,如果存在,获取需要查询的集群Collection信息,即先确定具体需要查询哪几个时间分段索引,从中检索符合用户需求的Rowkey值集合;如果不存在,则利用组合索引,根据具体业务情况检索时间区间内的索引,甚至全部索引,以获取符合条件的Rowkey值集合;
(2)在获取到Rowkey值集合后,根据Rowkey值在分布式数据库HBase中查询,获取完整的业务数据,并将其作为结果集返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510454526.1A CN105095458A (zh) | 2015-07-29 | 2015-07-29 | 一种基于时间特征支持复杂条件的大数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510454526.1A CN105095458A (zh) | 2015-07-29 | 2015-07-29 | 一种基于时间特征支持复杂条件的大数据检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105095458A true CN105095458A (zh) | 2015-11-25 |
Family
ID=54575894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510454526.1A Pending CN105095458A (zh) | 2015-07-29 | 2015-07-29 | 一种基于时间特征支持复杂条件的大数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095458A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528051A (zh) * | 2016-11-15 | 2017-03-22 | 国云科技股份有限公司 | 基于MongoDB的大数据队列堆栈高效操作的方法 |
CN107239517A (zh) * | 2017-05-23 | 2017-10-10 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN107577680A (zh) * | 2016-07-05 | 2018-01-12 | 滴滴(中国)科技有限公司 | 基于HBase大数据的实时全文检索系统及其实现方法 |
CN107644033A (zh) * | 2016-07-21 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种在非关系型数据库中进行数据查询的方法与设备 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
CN110765132A (zh) * | 2019-10-22 | 2020-02-07 | 北京思特奇信息技术股份有限公司 | 一种基于HBase的数据存储、检索方法及装置 |
CN110928868A (zh) * | 2018-09-03 | 2020-03-27 | 浙江宇视科技有限公司 | 车辆数据检索方法、装置及计算机可读存储介质 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
CN111782659A (zh) * | 2020-07-10 | 2020-10-16 | 东北大学 | 数据库索引创建方法、装置、计算机设备和存储介质 |
CN112687364A (zh) * | 2020-12-24 | 2021-04-20 | 宁波金唐软件有限公司 | 一种基于Hbase的医疗数据管理方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168154A1 (en) * | 2004-11-19 | 2006-07-27 | Microsoft Corporation | System and method for a distributed object store |
CN103970853A (zh) * | 2014-05-05 | 2014-08-06 | 浙江宇视科技有限公司 | 优化搜索引擎的方法及装置 |
CN104102710A (zh) * | 2014-07-15 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种海量数据查询方法 |
CN104573022A (zh) * | 2015-01-12 | 2015-04-29 | 浪潮软件股份有限公司 | 一种HBase的数据查询方法及装置 |
CN104731945A (zh) * | 2015-03-31 | 2015-06-24 | 浪潮集团有限公司 | 一种基于HBase的全文检索方法及装置 |
-
2015
- 2015-07-29 CN CN201510454526.1A patent/CN105095458A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168154A1 (en) * | 2004-11-19 | 2006-07-27 | Microsoft Corporation | System and method for a distributed object store |
CN103970853A (zh) * | 2014-05-05 | 2014-08-06 | 浙江宇视科技有限公司 | 优化搜索引擎的方法及装置 |
CN104102710A (zh) * | 2014-07-15 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种海量数据查询方法 |
CN104573022A (zh) * | 2015-01-12 | 2015-04-29 | 浪潮软件股份有限公司 | 一种HBase的数据查询方法及装置 |
CN104731945A (zh) * | 2015-03-31 | 2015-06-24 | 浪潮集团有限公司 | 一种基于HBase的全文检索方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577680B (zh) * | 2016-07-05 | 2021-04-09 | 北京嘀嘀无限科技发展有限公司 | 基于HBase大数据的实时全文检索系统及其实现方法 |
CN107577680A (zh) * | 2016-07-05 | 2018-01-12 | 滴滴(中国)科技有限公司 | 基于HBase大数据的实时全文检索系统及其实现方法 |
CN107644033A (zh) * | 2016-07-21 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种在非关系型数据库中进行数据查询的方法与设备 |
CN107644033B (zh) * | 2016-07-21 | 2021-08-17 | 阿里巴巴集团控股有限公司 | 一种在非关系型数据库中进行数据查询的方法与设备 |
CN106528051B (zh) * | 2016-11-15 | 2019-02-19 | 国云科技股份有限公司 | 基于MongoDB的大数据队列堆栈操作的方法 |
CN106528051A (zh) * | 2016-11-15 | 2017-03-22 | 国云科技股份有限公司 | 基于MongoDB的大数据队列堆栈高效操作的方法 |
CN107239517A (zh) * | 2017-05-23 | 2017-10-10 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN107239517B (zh) * | 2017-05-23 | 2020-09-29 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
CN110928868A (zh) * | 2018-09-03 | 2020-03-27 | 浙江宇视科技有限公司 | 车辆数据检索方法、装置及计算机可读存储介质 |
CN110765132A (zh) * | 2019-10-22 | 2020-02-07 | 北京思特奇信息技术股份有限公司 | 一种基于HBase的数据存储、检索方法及装置 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
CN111782659A (zh) * | 2020-07-10 | 2020-10-16 | 东北大学 | 数据库索引创建方法、装置、计算机设备和存储介质 |
CN111782659B (zh) * | 2020-07-10 | 2023-10-17 | 东北大学 | 数据库索引创建方法、装置、计算机设备和存储介质 |
CN112687364A (zh) * | 2020-12-24 | 2021-04-20 | 宁波金唐软件有限公司 | 一种基于Hbase的医疗数据管理方法及其系统 |
CN112687364B (zh) * | 2020-12-24 | 2023-08-01 | 宁波金唐软件有限公司 | 一种基于Hbase的医疗数据管理方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095458A (zh) | 一种基于时间特征支持复杂条件的大数据检索方法 | |
CN104572670B (zh) | 一种小文件的存储、查询及删除方法和系统 | |
US9047298B2 (en) | File searching on mobile devices | |
Dadheech et al. | An efficient approach for big data processing using spatial Boolean queries | |
WO2013030133A1 (en) | Search and discovery system | |
CN102332030A (zh) | 用于分布式键-值存储系统的数据存储、管理和查询方法及系统 | |
CN103428349B (zh) | 一种消息显示方法和系统 | |
CN103544261A (zh) | 一种海量结构化日志数据全局索引管理方法及装置 | |
CN104111935A (zh) | 一种推送微博的方法及系统、服务器 | |
CN108509437A (zh) | 一种ElasticSearch查询加速方法 | |
CN103823846A (zh) | 一种基于图论的大数据存储及查询方法 | |
Von der Weth et al. | Multiterm keyword search in NoSQL systems | |
WO2021043176A1 (zh) | 一种rcs业务消息的发送方法、装置、客户端和服务器 | |
CN103200269A (zh) | 互联网信息统计方法及系统 | |
CN109144951A (zh) | 一种基于分布式文件系统的目录更新方法及元数据服务器 | |
CN103218437A (zh) | 一种移动终端信息查询方法及系统 | |
CN102214174A (zh) | 一种海量数据信息检索系统及其方法 | |
Ding et al. | Viptra: Visualization and interactive processing on big trajectory data | |
CN103957254A (zh) | 一种互联网信息通用精准推送方法 | |
EP3076308B1 (en) | Telecommunication method for handling a database query in a telecommunication system | |
CN102685222A (zh) | 一种用于电力系统的云存储资源管理装置 | |
CN102521383A (zh) | 一种分布式系统中的海量文件存储和访问方法 | |
CN103699556A (zh) | 一种用于地方志编纂和地情资料的数字方志信息系统 | |
CN103631839A (zh) | 一种页面地域权重模型实现方法 | |
CN105184550A (zh) | 管理排期数据的方法、服务器及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151125 |
|
WD01 | Invention patent application deemed withdrawn after publication |