CN106709851B - 大数据检索方法及装置 - Google Patents
大数据检索方法及装置 Download PDFInfo
- Publication number
- CN106709851B CN106709851B CN201611090716.0A CN201611090716A CN106709851B CN 106709851 B CN106709851 B CN 106709851B CN 201611090716 A CN201611090716 A CN 201611090716A CN 106709851 B CN106709851 B CN 106709851B
- Authority
- CN
- China
- Prior art keywords
- text data
- index
- data
- information
- index table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims 2
- 238000013500 data storage Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/34—Betting or bookmaking, e.g. Internet betting
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种大数据检索方法及装置,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置;通过本发明所提供的大数据检索方法及装置,可根据特定的需求场景在成百上千万条记录中查询到需要的数据,查询时间控制在毫秒级,大大加快了体彩销售终端的数据查询速度。
Description
技术领域
本发明涉及彩票数据查询领域,尤指一种大数据检索方法及装置。
背景技术
随着体彩系统交易量的不断上升,系统记录的文件数据呈现爆炸式的增长,如何从海量数据中发现潜在的规律和知识已经是一个不可回避的问题,而文本数据存储系统可以很好地解决这一问题。文本数据存储系统为客户端提供了一种简单的数据模型,客户端可以动态地控制数据的布局和格式,并且利用底层数据存储的局部性特征。但是对数据的检索速度,由于文本数据存储系统采用的是Key-Value存储方式,因此对基于Value的条件查询都是全表扫描,对于小数据量没问题,但是一旦数据量大到百万,千万级(我们这里是一天就千万级)那就会无法接受,会非常非常非常慢。
发明内容
由于文本数据存储系统是key-value存储系统,因此对基于value的条件查询都是全表扫描,对于小数据量没问题,但是一旦数据量大到百万,千万级那就会无法接受,会非常非常非常慢;为此,本发明目的在于提供一种高效的检索方法及装置帮助用户快速定位检索内容。
为达上述目的,本发明具体提供一种大数据检索方法,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。
在上述大数据检索方法中,优选地,所述索引号为KEY值。
在上述大数据检索方法中,优选地,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。
在上述大数据检索方法中,优选地,所述文本数据的特征信息包含:所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号。
在上述大数据检索方法中,优选地,所述根据复数个所述索引号建立索引表包含将所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。
在上述大数据检索方法中,优选地,所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。
在上述大数据检索方法中,优选地,所述检索方法还包含:当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入数据库中存储的文本数据中。
本发明还提供一种大数据检索装置,所述检索装置包含数据获取模块、检索模块和存储模块;所述数据获取模块用于获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;所述检索模块用于根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至所述存储模块中;以及,通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述存储模块中待检索信息的存储位置;所述存储模块用于存储所述索引表和所述文本数据。
在上述大数据检索装置中,优选地,所述检索模块还用于当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入所述存储模块中存储的文本数据中。
在上述大数据检索装置中,优选地,所述检索装置还包含清理模块,所述清理模块用于按预定周期筛选所述存储模块中的所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。
本发明的有益技术效果在于:通过本发明所提供的大数据检索方法及装置,可根据特定的需求场景在成百上千万条记录中查询到需要的数据,查询时间控制在毫秒级,大大加快了体彩销售终端的数据查询速度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明所提供的大数据检索方法的流程示意图;
图2为本发明所提供的大数据检索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
请参考图1所示,本发明提供了一种大数据检索方法,具体包含:S101获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;S102根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;S103根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;S104通过待检索信息的特征信息确定待检索信息所对应的索引号;S105根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。其中,所述索引号为KEY值。
在上述实施例中,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。其中,所述文本数据的特征信息包含:所述文本数据的存入时间DATETIME、存入所述文本数据的操作地址信息SID以及所述操作地址信息存入所述文本数据的顺序编号SEQ。其中所述文本数据的顺序编号SEQ为同一所述文本数据的操作地址信息SID的不同操作的顺序标号。
在本发明一优选的实施例中,所述根据复数个所述索引号建立索引表包含将所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。
在实际工作中,上述实施例可采用文本数据存储系统存储体彩文本数据,每条数据拥有唯一KEY,并以惯常使用的检索特性为字段;通过数据清洗解析模块获取体彩文本数据并入库;在入库过程中,对每条数据的KEY进行计算,并按KEY的顺序进行排列。在设计KEY的时候采用KEY=DATETIME+SID+SEQ(DATETIME是入库时间,SID是会话ID,SEQ为同一SID的不同操作的顺序编号),对新入库的文本数据KEY建立全文索引;以检索特性为关键字使用全文索引进行检索,直接获取符合检索特性的所有文本数据的完整信息。不论非关系型数据记录多大,上述查询时间都在毫秒级了。极大提升体彩文本数据的存储能力和检索分析性能。
为提高检索效率,节约存储空间,在本发明一优选实施例中进一步对一些过期数据进行清理,具体的在所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。其中预定阈值可为半年、一年等,具体设置时间可根据实际情况选择设置,本发明在此并不做过多限制;预定周期则可与预定阈值设定时间相同,也可设置为一周、三个月等。
鉴于实际工作中,文本数据存入的时间不同,部分文本数据因网络延迟或其他情况于后期陆续接到时,所述检索方法还包含:当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入数据库中存储的文本数据中。以此,将该些文本数据插入正确的位置,便于后期及时检索定位该些文本数据,提高检索效率。
在实际工作中,体育彩票在全面的实体销售终端有15万台左右,销售员在每台终端的操作行为都会被记录下来,操作行为数据以文本的形式进行存储,每台终端每天都会产生一个销售员操作行为文本数据,文本平均大小1M,记录数据50万条左右;这些产生的数据每天会定时传送至后端,满足后期的分析查询。通过本发明所提供的大数据检索,对于每台终端上传的文本数据进行处理,将文本数据名称按终端编号+数据产生日期进行命名,例如终端编号为1101111111111的终端(终端编号是唯一的的13位数字)在2016年11月29日产生的操作行为数据文件名称为110111111111120161129,同时在每个文本数据中记录的每条数据会有相应的时间记录(示例如下,时间精确到时分秒毫秒),在入数据库前,建立索引为文件名称+时间记录,如110111111111120161129114444181,这就是该条数据的唯一索引号,在存储数据到列式数据库中去,跟存储位置顺序进行一一对应,在查询分析的时候能在秒级以内将该条数据进行查出,极大提高了体彩销售终端的数据查询速度。
请参考图2所示,本发明还提供一种大数据检索装置,所述检索装置包含数据获取模块、检索模块和存储模块;所述数据获取模块用于获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;所述检索模块用于根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至所述存储模块中;以及,通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述存储模块中待检索信息的存储位置;所述存储模块用于存储所述索引表和所述文本数据。
在上述大数据检索装置中,所述检索模块还用于当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入所述存储模块中存储的文本数据中。其中,所述检索装置还可包含清理模块,所述清理模块用于按预定周期筛选所述存储模块中的所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。
通过本发明所提供的大数据检索方法及装置,可根据特定的需求场景在成百上千万条记录中查询到需要的数据,查询时间控制在毫秒级,大大加快了体彩销售终端的数据查询速度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种大数据检索方法,其特征在于,所述检索方法包含:
获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;
根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;
根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;
通过待检索信息的特征信息确定待检索信息所对应的索引号;
根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置;
所述索引号为KEY值;根据复数个所述索引号建立索引表包含:将所述文本数据的存入时间、存入所述文本数据的操作地址信息的会话编号以及所述操作地址信息存入所述文本数据的顺序编号中存入时间、会话编号和顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。
2.根据权利要求1所述的大数据检索方法,其特征在于,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。
3.根据权利要求2所述的大数据检索方法,其特征在于,所述文本数据的特征信息包含:所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号;所述文本数据的顺序编号为同一所述文本数据的操作地址信息的不同操作的顺序标号。
4.根据权利要求1所述的大数据检索方法,其特征在于,所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。
5.根据权利要求1所述的大数据检索方法,其特征在于,所述检索方法还包含:当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入数据库中。
6.一种大数据检索装置,其特征在于,所述检索装置包含数据获取模块、检索模块和存储模块;
所述数据获取模块用于获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;
所述检索模块用于根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至所述存储模块中;所述索引号为KEY值;根据复数个所述索引号建立索引表包含:将所述文本数据的存入时间、存入所述文本数据的操作地址信息的会话编号以及所述操作地址信息存入所述文本数据的顺序编号中存入时间、会话编号和顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表;
以及,通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述存储模块中待检索信息的存储位置;
所述存储模块用于存储所述索引表和所述文本数据。
7.根据权利要求6所述的大数据检索装置,其特征在于,所述检索模块还用于当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入所述存储模块中。
8.根据权利要求6所述的大数据检索装置,其特征在于,所述检索装置还包含清理模块,所述清理模块用于按预定周期筛选所述索引表,将所述索引表中超出预定阈值的索引号及所述存储模块中所述索引号对应的所述文本数据删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611090716.0A CN106709851B (zh) | 2016-11-30 | 2016-11-30 | 大数据检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611090716.0A CN106709851B (zh) | 2016-11-30 | 2016-11-30 | 大数据检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106709851A CN106709851A (zh) | 2017-05-24 |
CN106709851B true CN106709851B (zh) | 2021-07-09 |
Family
ID=58934457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611090716.0A Active CN106709851B (zh) | 2016-11-30 | 2016-11-30 | 大数据检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106709851B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108111261B (zh) * | 2017-11-10 | 2021-02-02 | 北京全路通信信号研究设计院集团有限公司 | 搜索矩阵生成方法和报文搜索方法 |
CN108197275A (zh) * | 2018-01-08 | 2018-06-22 | 中国人民大学 | 一种分布式文件列存储索引方法 |
CN109783455B (zh) * | 2018-12-20 | 2024-03-12 | 昂纳科技(深圳)集团股份有限公司 | 一种基于大规模数据的管理方法、系统以及存储装置 |
CN112307011A (zh) * | 2019-07-29 | 2021-02-02 | 创新先进技术有限公司 | 一种数据存储方法、装置及设备 |
CN112307010B (zh) * | 2019-07-29 | 2024-04-16 | 创新先进技术有限公司 | 一种数据存储方法、装置及设备 |
CN110825737A (zh) * | 2019-10-18 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 索引创建和数据查询方法、装置及设备 |
CN115878612B (zh) * | 2022-11-17 | 2023-12-15 | 北京东方京融教育科技股份有限公司 | 一种数据库结构及其检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8700661B2 (en) * | 2012-04-12 | 2014-04-15 | Navteq B.V. | Full text search using R-trees |
CN104111955B (zh) * | 2013-04-22 | 2018-10-23 | 中国银联股份有限公司 | 一种面向Hbase数据库的复合查询方法 |
CN105701096A (zh) * | 2014-11-25 | 2016-06-22 | 腾讯科技(深圳)有限公司 | 索引生成方法、数据查询方法、装置及系统 |
CN105843918B (zh) * | 2016-03-25 | 2020-04-07 | 前锦网络信息技术(上海)有限公司 | 一种从职位数据库中快速筛选职位的方法 |
-
2016
- 2016-11-30 CN CN201611090716.0A patent/CN106709851B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106709851A (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709851B (zh) | 大数据检索方法及装置 | |
CN108268565B (zh) | 基于数据仓库处理用户浏览行为数据的方法及系统 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN101136027B (zh) | 用于数据库索引、搜索和数据检索的系统和方法 | |
CN103593371A (zh) | 推荐搜索关键词的方法和装置 | |
CN112988863A (zh) | 一种基于Elasticsearch的异构多数据源的高效搜索引擎方法 | |
CN104699841A (zh) | 提供搜索结果的列表摘要信息的方法和装置 | |
CN105117442B (zh) | 一种基于概率的大数据查询方法 | |
KR100898465B1 (ko) | 웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법그리고 상기 방법을 수행하는 시스템 | |
CN110928903B (zh) | 数据提取方法及装置、设备和存储介质 | |
CN112269816A (zh) | 一种政务预约事项相关性检索方法 | |
CN107370830B (zh) | 基于大数据的行业信息推送系统及方法 | |
CN107145538B (zh) | 表格数据查询方法、装置与系统 | |
CN103455497A (zh) | 一种提供整合的搜索结果的方法以及系统 | |
CN106528810B (zh) | 一种融合异构数据便于快速大数据分析的方法 | |
CN102129619A (zh) | 一种基于云存储的业务数据处理方法及系统 | |
CN110928900B (zh) | 多表数据的查询方法、装置、终端以及计算机存储介质 | |
CN111258819A (zh) | MySQL数据库备份文件的数据获取方法、装置和系统 | |
CN110019380B (zh) | 一种数据查询方法、装置、服务器及存储介质 | |
CN109636303B (zh) | 一种半自动提取和结构化文档信息的存储方法及系统 | |
CN104881475A (zh) | 一种用于大数据随机抽样的方法和系统 | |
CN110737432A (zh) | 一种基于词根表的脚本辅助设计方法及装置 | |
CN101639851A (zh) | 一种数据存储、查询的方法和装置 | |
CN107341198B (zh) | 一种基于主题实例的电力海量数据存储和查询方法 | |
CN111125045B (zh) | 一种轻量级etl处理平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |