CN108241647A - 数据处理及查询的方法和装置 - Google Patents

数据处理及查询的方法和装置 Download PDF

Info

Publication number
CN108241647A
CN108241647A CN201611209032.8A CN201611209032A CN108241647A CN 108241647 A CN108241647 A CN 108241647A CN 201611209032 A CN201611209032 A CN 201611209032A CN 108241647 A CN108241647 A CN 108241647A
Authority
CN
China
Prior art keywords
data
buffer zone
time window
query result
inquiry request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611209032.8A
Other languages
English (en)
Other versions
CN108241647B (zh
Inventor
倪传蕾
肖康
吴鑫
马庆祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611209032.8A priority Critical patent/CN108241647B/zh
Publication of CN108241647A publication Critical patent/CN108241647A/zh
Application granted granted Critical
Publication of CN108241647B publication Critical patent/CN108241647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了数据处理及查询的方法和装置,该方法包括:将接收到的有效数据存储至相应时间窗口下的缓存区域中;针对任一缓存区域,创建所述缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;基于接收到的数据查询请求,从所述预置数据库和/或对应的缓存区域中的数据集中获取与所述查询请求相匹配的查询结果。本发明的技术方案使得用户能够实时获取到有效数据的查询结果,节省用户等待获取查询结果的时间,提升用户获取查询结果的体验度。

Description

数据处理及查询的方法和装置
技术领域
本发明涉及大数据领域,具体而言,本发明涉及一种数据处理及查询的方法和一种数据处理及查询的装置。
背景技术
随着互联网的发展,大数据技术的浪潮也正在席卷全球,成为一种新的生产力技术。大数据技术不仅仅指获得海量数据,更重要的意义是通过对海量数据的分析、整合来获得隐藏在数据背后的有价值的信息。
由于大数据的特点就是数据的数量多,使得对大数据进行存储管理时面临着巨大的挑战,而这个问题可以通过分布式存储技术来解决。分布式存储技术是通过分布式存储系统将大数据分散存储在由多台独立的设备形成的设备集群上。由于分布式存储系统采用可扩展的系统结构,利用多台独立存储服务器分担存储负荷,利用位置服务器定位存储信息,这不但提高了分布式存储系统的可靠性、可用性和存取效率,还易于扩展。
分布式存储系统在对大数据进行分析处理时,通过map reduce算法对预置周期内的批量数据进行处理,但由于map reduce算法对预置周期内的批量数据进行处理时,其处理过程非常复杂,且耗费的处理时间也非常久,一般需要大概五到六个小时,导致用户无法立即查询到当前数据的处理结果,且用户需要等待较长的时间,才能获取到该当前数据的处理结果,造成不良的用户体验。所以如何提高用户的体验度,是解决上述问题的关键。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明的实施例提出了一种数据处理及查询的方法,包括:
将接收到的有效数据存储至相应时间窗口下的缓存区域中;
针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;
基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
优选地,该方法还包括:
基于窗口周期,依次划分连续时间窗口下的缓存区域;
其中,将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,包括:
确定接收到的有效数据的时间标识;
将有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
优选地,该方法还包括:
对接收有效数据的时间窗口设置等待时间;
其中,将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,包括:
在等待时间内接收到有效数据时,将有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
优选地,该方法还包括:
在超出等待时间后,相应的时间窗口下的缓存区域中不接收数据。
优选地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,包括:
基于接收到的数据查询请求,从预置数据库的数据集中获取与查询请求相匹配的查询结果;
若未从预置数据库的数据集中获取到相匹配的查询结果,从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果。
优选地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,还包括:
若从预置数据库的数据集中获取到与数据查询请求相匹配的查询结果中的第一部分;
从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果中的第二部分;
其中,第一部分和第二部分形成完整查询结果。
优选地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,包括:
若判断预置数据库的数据集中存在与数据查询请求相匹配的完整查询结果,获取完整查询结果。
本发明的另一实施例提出了一种数据处理及查询的装置,包括:
接收模块,用于将接收到的有效数据存储至相应时间窗口下的缓存区域中;
创建模块,用于针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;
获取模块,用于基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
优选地,该装置还包括:
划分模块,用于基于窗口周期,依次划分连续时间窗口下的缓存区域;
其中,接收模块,包括:
确定单元,用于确定接收到的有效数据的时间标识;
第一存储单元,用于将有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
优选地,该装置还包括:
设置模块,用于对接收有效数据的时间窗口设置等待时间;
其中,接收模块,还包括:
第二存储单元,用于在等待时间内接收到有效数据时,将有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
优选地,该装置还包括:
停止接收模块,用于在超出等待时间后,相应的时间窗口下的缓存区域中不接收数据。
优选地,获取模块,包括:
第一获取单元,用于基于接收到的数据查询请求,从预置数据库的数据集中获取与查询请求相匹配的查询结果;
第二获取单元,用于若未从预置数据库的数据集中获取到相匹配的查询结果,从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果。
优选地,获取模块,还包括:
第三获取单元,用于若从预置数据库的数据集中获取到与数据查询请求相匹配的查询结果中的第一部分;
第四获取单元,用于从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果中的第二部分;
其中,第一部分和第二部分形成完整查询结果。
优选地,获取模块,还包括:
第五获取单元,用于若判断预置数据库的数据集中存在与数据查询请求相匹配的完整查询结果,获取完整查询结果。
本发明的技术方案中,将接收到的有效数据存储至相应时间窗口下的缓存区域中;并创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;能够实现对数据流进行实时处理,不会因为累积预置周期内的批量数据,造成只能对该批量数据进行非实时地处理的情况发生;同时,能够减少处理数据的时间。此外,本技术方案还基于数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果;使得用户能够实时获取到有效数据的查询结果,节省用户等待获取查询结果的时间,提升用户获取查询结果的体验度。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中的一个实施例的数据处理及查询的方法的流程示意图;
图2为本发明中的一个优选实施例的将接收到的有效数据存储至相应时间窗口下的缓存区域中步骤的流程示意图;
图3为本发明中的另一个优选实施例的未从预置数据库和/或任一缓存区域中的数据集中获取到与查询请求相匹配的查询结果的步骤的流程示意图;
图4为本发明中的又一个优选实施例的从预置数据库和/或任一缓存区域中的数据集中获取到与查询请求相匹配的部分查询结果的步骤的流程示意图;
图5为本发明中的另一个实施例的数据处理及查询的装置的结构框架示意图;
图6为本发明中的一个优选实施例的接收模块的结构框架示意图;
图7为本发明中的另一个优选实施例的未从预置数据库和/或任一缓存区域中的数据集中获取到与查询请求相匹配的查询结果时,获取模块的结构框架示意图;
图8为本发明中的又一个优选实施例的从预置数据库和/或任一缓存区域中的数据集中获取到与查询请求相匹配的部分查询结果时,获取模块的结构框架示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明一个实施例的数据处理及查询的方法的流程示意图。
需要说明的是,本实施例的执行主体是服务器。
步骤S101:将接收到的有效数据存储至相应时间窗口下的缓存区域中;步骤S102:针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;步骤S103:基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
本发明的技术方案中,将接收到的有效数据存储至相应时间窗口下的缓存区域中;并创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;能够实现对数据流进行实时处理,不会因为累积预置周期内的批量数据,造成只能对该批量数据进行非实时地处理的情况发生;同时,能够减少处理数据的时间。此外,本技术方案还基于数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果;使得用户能够实时获取到有效数据的查询结果,节省用户等待获取查询结果的时间,提升用户获取查询结果的体验度。
以下针对各个步骤的具体实现做进一步的说明:
步骤S101:将接收到的有效数据存储至相应时间窗口下的缓存区域中。
具体地,本实施例还包括:基于窗口周期,依次划分连续时间窗口下的缓存区域。其中,将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,如图2所示,包括:步骤S201:确定接收到的有效数据的时间标识;步骤S202:将有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
例如,服务器基于窗口周期5分钟,依次划分连续时间窗口下的缓存区域,如,【10:30,10:35】时间窗口下的缓存区域、【10:35,10:40】时间窗口下的缓存区域,【10:40,10:45】时间窗口下的缓存区域等;服务器获取来自数据收集系统,如,kafka分布式消息系统,发送的原始数据,提取所述原始数据中的所需数据,并将所需数据进行整理,生成预置格式的有效数据,如,“买家于2017年11月11日10:30在A购物网站上购买冰箱的有效数据”、“买家于2017年11月11日10:32在B购物网站上购买电视的有效数据”、“买家于2017年11月11日10:37在A购物网站上购买台灯的有效数据”、“买家于2017年11月11日10:38在B购物网站上购买空调的有效数据”等;服务器确定接收到的有效数据时间标识,如,确定“买家于2017年11月11日10:30在A购物网站上购买冰箱”的有效数据时间标识为:2017年11月11日10:30,确定“买家于2017年11月11日10:32在B购物网站上购买电视”的有效数据时间标识为:2017年11月11日10:32,确定“买家于2017年11月11日10:37在A购物网站上购买台灯”的有效数据时间标识为:2017年11月11日10:37,确定“买家于2017年11月11日10:38在B购物网站上购买空调”的有效数据时间标识为:2017年11月11日10:38;服务器将有效数据:“买家于2017年11月11日10:30在A购物网站上购买冰箱”存储至与其时间标识:2017年11月11日10:30相应【10:30,10:35】时间窗口下的缓存区域cache中;以此类推,服务器分别将有效数据:“买家于2017年11月11日10:32在B购物网站上购买电视”存储至与其时间标识相应【10:30,10:35】时间窗口下的缓存区域cache中,“买家于2017年11月11日10:37在A购物网站上购买台灯”存储至与其时间标识相应【10:35,10:40】时间窗口下的缓存区域cache中,“买家于2017年11月11日10:38在B购物网站上购买空调”存储至与其时间标识相应【10:35,10:40】时间窗口下的缓存区域cache中。
需要说明的是,上述优选实施例中的【10:30,10:35】时间窗口为每天上午十点三十分至十点三十五分的时间窗口,【10:35,10:40】时间窗口为每天上午十点三十五分至十点四十分的时间窗口,【10:40,10:45】时间窗口为每天上午十点四十分至十点四十五分的时间窗口。
具体地,该方法还包括:对接收有效数据的时间窗口设置等待时间;其中,将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,如图2所示,包括:步骤S203:在等待时间内接收到有效数据时,将有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
例如,服务器对接收有效数据的时间窗口设置等待时间:3分钟,则【10:30,10:35】时间窗口、【10:35,10:40】时间窗口和【10:40,10:45】时间窗口的等待时间均为3分钟,即,该三个时间窗口的存活时间为8分钟。服务器在【10:30,10:35】时间窗口的等待时间3分钟内,即,10:35至10:38之间接收到时间标识为:2017年11月11日10:30-10:35的有效数据,如,10:37接收到“买家于2017年11月11日10:30在A购物网站上购买冰箱”的有效数据,则服务器将该有效数据存储至与该有效数据的时间标识:2017年11月11日10:30相应【10:30,10:35】时间窗口下的缓存区域中。
具体地,该方法还包括:在超出等待时间后,相应的时间窗口下的缓存区域中不接收数据。
例如,在超出【10:30,10:35】时间窗口的等待时间3分钟,即在10:38之后,该【10:30,10:35】时间窗口不接受任何有效数据。
需要说明的是,在时间窗口的等待时间结束后,服务器应当将存储至相应时间窗口的有效数据抛弃即可,当抛弃数据占服务器接收到的有效数据的2%或3%是不影响数据集建立的准确性的。
若服务器无法找到与任一有效数据的时间标识相应时间窗口时,即服务器无法将该任一有效数据存储至相应时间窗口下的缓存区域中时,判断该相应时间窗口是否已经生成过;若判断该时间窗口没有生成过,则生成该时间窗口,并将该任一有效数据存储至该相应时间窗口下的缓存区域中;若判断该时间窗口生成过,则抛弃该任一有效数据。
步骤S102:针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库。
具体地,针对任一缓存区域,如,【10:30,10:35】时间窗口下的缓存区域cache,通过cube算法,创建缓存区域cache中的已存储的有效数据,如,“买家于2017年11月11日10:30在A购物网站上购买冰箱”、“买家于2017年11月11日10:32在B购物网站上购买电视”、“买家于2017年11月11日10:34在A购物网站上购买书桌”、“买家于2017年11月11日10:35在B购物网站上购买茶几”,的cube数据集;服务器将该创建好的cube数据集发送至预置数据库,如,硬盘数据库。
需要说明的是,在上述优选实施例中,为了对该步骤S102进行简单而有效的说明,仅选举了四个有效数据;但实际上在任一缓存区域中,应当可以存储更多有效数据,并创建该更多有效数据的数据集;此外,cube数据集应当是实时建立的,不会等到其时间窗口下的缓存区域cache中所有有效数据都接收完成,再去创建cube数据集,且在实时创建cube数据集的过程中,将已创建的部分cube数据集缓存在其所属的时间窗口下的缓存区域cache中,直至完成该时间窗口下的缓存区域cache中所有有效数据的cube数据集的创建。
步骤S103:基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
具体地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,如图3所示,包括:步骤S301:基于接收到的数据查询请求,从预置数据库的数据集中获取与查询请求相匹配的查询结果;步骤S302:若未从预置数据库的数据集中获取到相匹配的查询结果,从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果。
例如,当服务器于2017年11月11日10:33接收到客户端发送的数据查询请求时,服务器基于该数据查询请求中的查询关键词,如,“2017年11月11日10:30至2017年11月11日10:32之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中只存储到当天10:30的cube数据集,所以服务器在该硬盘数据库中只能查询“2017年11月11日10:30之前,买家在各个购物网站上购买商品”的数据查询结果,无法查询到“2017年11月11日10:30至2017年11月11日10:32之间,买家在各个购物网站上购买商品”的数据查询结果,所以服务器基于该查询关键词“2017年11月11日10:30至2017年11月11日10:32之间”,查询并获取对应【10:30,10:35】时间窗口下的缓存区域cache中的已创建的部分cube数据集中“10:30至10:32之间的买家在各个购物网站上购买商品”的查询结果。服务器将该查询结果返回至客户端,以供用户查看。
具体地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,如图4所示,还包括:步骤S401:若从预置数据库的数据集中获取到与数据查询请求相匹配的查询结果中的第一部分;步骤S402:从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果中的第二部分;其中,第一部分和第二部分形成完整查询结果。
例如,当服务器于2017年11月11日10:33接收到客户端发送的数据查询请求时,服务器基于该数据查询请求中的查询关键词,如,“2017年11月11日00:00至2017年11月11日10:32之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中只存储到当天10:30的cube数据集,所以服务器在该硬盘数据库中只能查询并获取到“2017年11月11日00:00至2017年11月11日10:30之间的买家在各个购物网站上购买商品”的数据查询结果,故服务器基于该查询关键词“2017年11月11日00:00至2017年11月11日10:32之间”,查询并获取对应【10:30,10:35】时间窗口下的缓存区域cache中的已创建的部分cube数据集中“10:30至10:32之间,买家在各个购物网站上购买商品”的查询结果。服务器将这两部分查询结果返回至客户端,以供用户查看。
具体地,基于接收到的数据查询请求,从预置数据库和/或任一缓存区域中的数据集中获取与查询请求相匹配的查询结果的步骤,包括:若判断预置数据库的数据集中存在与数据查询请求相匹配的完整查询结果,获取完整查询结果。
例如,当服务器于2017年11月11日10:31接收到客户端发送的数据查询请求时,服务器基于该数据查询请求中的查询关键词,如,“2017年11月11日00:00至2017年11月11日10:30之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中存储到当天10:30的cube数据集,所以服务器在该硬盘数据库中能通过查询而判断硬盘数据库的数据集中存在与数据查询请求相匹配的完整查询结果,并在该硬盘数据库中获取到“2017年11月11日10:30之前,买家在各个购物网站上购买商品”的数据查询结果,故服务器将获取得到该查询结果返回至客户端,以供用户查看。
需要说明的是,在本优选实施例中,用户获取到的查询结果可以为数据趋势图、数据曲线图等,以供用户根据该查询结果,对交易市场、经营手段等进行分析和调整。
图5为本发明中的另一个实施例的数据处理及查询的装置的结构框架示意图。
接收模块501,将接收到的有效数据存储至相应时间窗口下的缓存区域中;创建模块502,针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;获取模块503,基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
以下针对各个模块的具体实现做进一步的说明:
接收模块501,将接收到的有效数据存储至相应时间窗口下的缓存区域中。
具体地,本实施例装置还包括:划分模块,基于窗口周期,依次划分连续时间窗口下的缓存区域。其中,接收模块501,如图6所示,包括:确定单元601,确定接收到的有效数据的时间标识;第一存储单元602,将有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
例如,服务器的划分模块,基于窗口周期5分钟,依次划分连续时间窗口下的缓存区域,如,【10:30,10:35】时间窗口下的缓存区域、【10:35,10:40】时间窗口下的缓存区域,【10:40,10:45】时间窗口下的缓存区域等;服务器获取来自数据收集系统,如,kafka分布式消息系统,发送的原始数据,提取所述原始数据中的所需数据,并将所需数据进行整理,生成预置格式的有效数据,如,“买家于2017年11月11日10:30在A购物网站上购买冰箱的有效数据”、“买家于2017年11月11日10:32在B购物网站上购买电视的有效数据”、“买家于2017年11月11日10:37在A购物网站上购买台灯的有效数据”、“买家于2017年11月11日10:38在B购物网站上购买空调的有效数据”等;服务器的确定单元601,确定接收到的有效数据时间标识,如,确定“买家于2017年11月11日10:30在A购物网站上购买冰箱”的有效数据时间标识为:2017年11月11日10:30,确定“买家于2017年11月11日10:32在B购物网站上购买电视”的有效数据时间标识为:2017年11月11日10:32,确定“买家于2017年11月11日10:37在A购物网站上购买台灯”的有效数据时间标识为:2017年11月11日10:37,确定“买家于2017年11月11日10:38在B购物网站上购买空调”的有效数据时间标识为:2017年11月11日10:38;服务器的第一存储单元602,将有效数据:“买家于2017年11月11日10:30在A购物网站上购买冰箱”存储至与其时间标识:2017年11月11日10:30相应【10:30,10:35】时间窗口下的缓存区域cache中;以此类推,服务器的第一存储单元602,分别将有效数据:“买家于2017年11月11日10:32在B购物网站上购买电视”存储至与其时间标识相应【10:30,10:35】时间窗口下的缓存区域cache中,“买家于2017年11月11日10:37在A购物网站上购买台灯”存储至与其时间标识相应【10:35,10:40】时间窗口下的缓存区域cache中,“买家于2017年11月11日10:38在B购物网站上购买空调”存储至与其时间标识相应【10:35,10:40】时间窗口下的缓存区域cache中。
需要说明的是,上述优选实施例中的【10:30,10:35】时间窗口为每天上午十点三十分至十点三十五分的时间窗口,【10:35,10:40】时间窗口为每天上午十点三十五分至十点四十分的时间窗口,【10:40,10:45】时间窗口为每天上午十点四十分至十点四十五分的时间窗口。
具体地,该装置还包括:设置模块,对接收有效数据的时间窗口设置等待时间;其中,接收模块,如图6所示,还包括:第二存储单元603,在等待时间内接收到有效数据时,将有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
例如,服务器的设置模块,对接收有效数据的时间窗口设置等待时间:3分钟,则【10:30,10:35】时间窗口、【10:35,10:40】时间窗口和【10:40,10:45】时间窗口的等待时间均为3分钟,即,该三个时间窗口的存活时间为8分钟。服务器的第二存储单元603,在【10:30,10:35】时间窗口的等待时间3分钟内,即,10:35至10:38之间接收到时间标识为:2017年11月11日10:30-10:35的有效数据,如,10:37接收到“买家于2017年11月11日10:30在A购物网站上购买冰箱”的有效数据,则服务器将该有效数据存储至与该有效数据的时间标识:2017年11月11日10:30相应【10:30,10:35】时间窗口下的缓存区域中。
具体地,该装置还包括:停止接收模块,在超出等待时间后,相应的时间窗口下的缓存区域中不接收数据。
例如,在超出【10:30,10:35】时间窗口的等待时间3分钟,即在10:38之后,该【10:30,10:35】时间窗口不接受任何有效数据。
需要说明的是,在时间窗口的等待时间结束后,服务器应当将存储至相应时间窗口的有效数据抛弃即可,当抛弃数据占服务器接收到的有效数据的2%或3%是不影响数据集建立的准确性的。
若服务器的第一存储单元602,无法找到与任一有效数据的时间标识相应时间窗口时,即服务器的第一存储单元602,无法将该任一有效数据存储至相应时间窗口下的缓存区域中时,则服务器判断该相应时间窗口是否已经生成过;若判断该时间窗口没有生成过,则生成该时间窗口,并将该任一有效数据存储至该相应时间窗口下的缓存区域中;若判断该时间窗口生成过,则抛弃该任一有效数据。
创建模块502,针对任一缓存区域,创建缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库。
具体地,创建模块502,针对任一缓存区域,如,【10:30,10:35】时间窗口下的缓存区域cache,通过cube算法,创建缓存区域cache中的已存储的有效数据,如,“买家于2017年11月11日10:30在A购物网站上购买冰箱”、“买家于2017年11月11日10:32在B购物网站上购买电视”、“买家于2017年11月11日10:34在A购物网站上购买书桌”、“买家于2017年11月11日10:35在B购物网站上购买茶几”,的cube数据集;服务器将该创建好的cube数据集发送至预置数据库,如,硬盘数据库。
需要说明的是,在上述优选实施例中,为了对该创建模块502,进行简单而有效的说明,仅选举了四个有效数据;但实际上在任一缓存区域中,应当可以存储更多有效数据,并创建该更多有效数据的数据集;此外,cube数据集应当是实时建立的,不会等到其时间窗口下的缓存区域cache中所有有效数据都接收完成,再去创建cube数据集,且在实时创建cube数据集的过程中,将已创建的部分cube数据集缓存在其所属的时间窗口下的缓存区域cache中,直至完成该时间窗口下的缓存区域cache中所有有效数据的cube数据集的创建。
获取模块503,基于接收到的数据查询请求,从预置数据库和/或对应的缓存区域中的数据集中获取与查询请求相匹配的查询结果。
具体地,获取模块503,如图7所示,包括:第一获取单元701,基于接收到的数据查询请求,从预置数据库的数据集中获取与查询请求相匹配的查询结果;第二获取单元702,若未从预置数据库的数据集中获取到相匹配的查询结果,从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果。
例如,当服务器于2017年11月11日10:33接收到客户端发送的数据查询请求时,服务器的第一获取单元701,基于该数据查询请求中的查询关键词,如,“2017年11月11日10:30至2017年11月11日10:32之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中只存储到当天10:30的cube数据集,所以服务器的第一获取单元701,在该硬盘数据库中只能查询“2017年11月11日10:30之前,买家在各个购物网站上购买商品”的数据查询结果,无法查询到“2017年11月11日10:30至2017年11月11日10:32之间,买家在各个购物网站上购买商品”的数据查询结果,所以服务器的第二获取单元702,基于该查询关键词“2017年11月11日10:30至2017年11月11日10:32之间”,查询并获取对应【10:30,10:35】时间窗口下的缓存区域cache中的已创建的部分cube数据集中“10:30至10:32之间的买家在各个购物网站上购买商品”的查询结果。服务器将该查询结果返回至客户端,以供用户查看。
具体地,获取模块503,如图8所示,还包括:第三获取单元801,若从预置数据库的数据集中获取到与数据查询请求相匹配的查询结果中的第一部分;第四获取单元802,从与数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果中的第二部分;其中,第一部分和第二部分形成完整查询结果。
例如,当服务器于2017年11月11日10:33接收到客户端发送的数据查询请求时,服务器的第三获取单元801,基于该数据查询请求中的查询关键词,如,“2017年11月11日00:00至2017年11月11日10:32之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中只存储到当天10:30的cube数据集,所以服务器的第三获取单元801,在该硬盘数据库中只能查询并获取到“2017年11月11日00:00至2017年11月11日10:30之间的买家在各个购物网站上购买商品”的数据查询结果,故服务器的第四获取单元802,基于该查询关键词“2017年11月11日00:00至2017年11月11日10:32之间”,查询并获取对应【10:30,10:35】时间窗口下的缓存区域cache中的已创建的部分cube数据集中“10:30至10:32之间,买家在各个购物网站上购买商品”的查询结果。服务器将这两部分查询结果返回至客户端,以供用户查看。
具体地,获取模块503,还包括:第五获取单元,若判断预置数据库的数据集中存在与数据查询请求相匹配的完整查询结果,获取完整查询结果。
例如,当服务器于2017年11月11日10:31接收到客户端发送的数据查询请求时,服务器的第五获取单元,基于该数据查询请求中的查询关键词,如,“2017年11月11日00:00至2017年11月11日10:30之间,买家在各个购物网站上购买商品”,从硬盘数据库中的cube数据集中获取与该查询请求的查询关键词相匹配的查询结果;由于该硬盘数据库中存储到当天10:30的cube数据集,所以服务器的第五获取单元,通过查询而判断硬盘数据库的数据集中存在与数据查询请求相匹配的完整查询结果,并在该硬盘数据库中获取到“2017年11月11日10:30之前,买家在各个购物网站上购买商品”的数据查询结果,故服务器将获取得到该查询结果返回至客户端,以供用户查看。
需要说明的是,在本优选实施例中,用户获取到的查询结果可以为数据趋势图、数据曲线图等,以供用户根据该查询结果,对交易市场、经营手段等进行分析和调整。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理及查询的方法,其特征在于,包括:
将接收到的有效数据存储至相应时间窗口下的缓存区域中;
针对任一缓存区域,创建所述缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;
基于接收到的数据查询请求,从所述预置数据库和/或对应的缓存区域中的数据集中获取与所述查询请求相匹配的查询结果。
2.根据权利要求1所述的方法,其中,还包括:
基于窗口周期,依次划分连续时间窗口下的缓存区域;
其中,所述将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,包括:
确定接收到的有效数据的时间标识;
将所述有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
3.根据权利要求2所述的方法,其中,还包括:
对接收有效数据的时间窗口设置等待时间;
其中,所述将接收到的有效数据存储至相应时间窗口下的缓存区域中的步骤,包括:
在所述等待时间内接收到有效数据时,将所述有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
4.根据权利要求3所述的方法,其中,还包括:
在超出所述等待时间后,相应的时间窗口下的缓存区域中不接收数据。
5.根据权利要求1所述的方法,其中,所述基于接收到的数据查询请求,从所述预置数据库和/或任一缓存区域中的数据集中获取与所述查询请求相匹配的查询结果的步骤,包括:
基于接收到的数据查询请求,从所述预置数据库的数据集中获取与所述查询请求相匹配的查询结果;
若未从所述预置数据库的数据集中获取到相匹配的查询结果,从与所述数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果。
6.根据权利要求5所述的方法,其中,还包括:
若从所述预置数据库的数据集中获取到与所述数据查询请求相匹配的查询结果中的第一部分;
从与所述数据查询请求对应的缓存区域中的数据集中获取相匹配的查询结果中的第二部分;
其中,所述第一部分和第二部分形成完整查询结果。
7.根据权利要求1所述的方法,其中,所述基于接收到的数据查询请求,从所述预置数据库和/或任一缓存区域中的数据集中获取与所述查询请求相匹配的查询结果的步骤,包括:
若判断所述预置数据库的数据集中存在与所述数据查询请求相匹配的完整查询结果,获取完整查询结果。
8.一种数据处理及查询的装置,其特征在于,包括:
接收模块,用于将接收到的有效数据存储至相应时间窗口下的缓存区域中;
创建模块,用于针对任一缓存区域,创建所述缓存区域中的已存储的有效数据的数据集,并将该数据集发送至预置数据库;
获取模块,用于基于接收到的数据查询请求,从所述预置数据库和/或对应的缓存区域中的数据集中获取与所述查询请求相匹配的查询结果。
9.根据权利要求8所述的装置,其中,还包括:
划分模块,用于基于窗口周期,依次划分连续时间窗口下的缓存区域;
其中,所述接收模块,包括:
确定单元,用于确定接收到的有效数据的时间标识;
第一存储单元,用于将所述有效数据存储至与其时间标识相应时间窗口下的缓存区域中。
10.根据权利要求9所述的装置,其中,还包括:
设置模块,用于对接收有效数据的时间窗口设置等待时间;
其中,所述接收模块,还包括:
第二存储单元,用于在所述等待时间内接收到有效数据时,将所述有效数据存储至与该有效数据的时间标识相应时间窗口下的缓存区域中。
CN201611209032.8A 2016-12-23 2016-12-23 数据处理及查询的方法和装置 Active CN108241647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611209032.8A CN108241647B (zh) 2016-12-23 2016-12-23 数据处理及查询的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611209032.8A CN108241647B (zh) 2016-12-23 2016-12-23 数据处理及查询的方法和装置

Publications (2)

Publication Number Publication Date
CN108241647A true CN108241647A (zh) 2018-07-03
CN108241647B CN108241647B (zh) 2022-03-11

Family

ID=62704362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611209032.8A Active CN108241647B (zh) 2016-12-23 2016-12-23 数据处理及查询的方法和装置

Country Status (1)

Country Link
CN (1) CN108241647B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535966A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 一种数据处理方法及相关设备
CN111090705A (zh) * 2018-10-23 2020-05-01 杭州海康威视数字技术股份有限公司 一种多维数据处理方法、装置及设备、存储介质
CN111835651A (zh) * 2019-04-19 2020-10-27 上海哔哩哔哩科技有限公司 数据写入方法、系统、设备及计算机可读存储介质
CN111897812A (zh) * 2020-07-01 2020-11-06 中国建设银行股份有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN113515549A (zh) * 2021-09-14 2021-10-19 江西科技学院 财务数据查询方法、装置及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023219572A1 (en) * 2022-05-12 2023-11-16 Gp Network Asia Pte. Ltd. Method and system for adaptively processing a request for data

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060271510A1 (en) * 2005-05-25 2006-11-30 Terracotta, Inc. Database Caching and Invalidation using Database Provided Facilities for Query Dependency Analysis
CN103279530A (zh) * 2013-05-31 2013-09-04 携程计算机技术(上海)有限公司 时间序列数据的组合查询缓存的建立方法、方法及系统
CN104123238A (zh) * 2014-06-30 2014-10-29 海视云(北京)科技有限公司 数据存储方法及装置
CN104765765A (zh) * 2015-02-15 2015-07-08 杭州邦盛金融信息技术有限公司 一种基于时间窗口可移动的动态数据快速处理方法
CN105528367A (zh) * 2014-09-30 2016-04-27 华东师范大学 基于开源大数据对时间敏感数据的存储和近实时查询方法
CN105573889A (zh) * 2015-12-15 2016-05-11 上海仪电(集团)有限公司 虚拟机监控数据的存取方法及装置
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060271510A1 (en) * 2005-05-25 2006-11-30 Terracotta, Inc. Database Caching and Invalidation using Database Provided Facilities for Query Dependency Analysis
CN103279530A (zh) * 2013-05-31 2013-09-04 携程计算机技术(上海)有限公司 时间序列数据的组合查询缓存的建立方法、方法及系统
CN104123238A (zh) * 2014-06-30 2014-10-29 海视云(北京)科技有限公司 数据存储方法及装置
CN105528367A (zh) * 2014-09-30 2016-04-27 华东师范大学 基于开源大数据对时间敏感数据的存储和近实时查询方法
CN104765765A (zh) * 2015-02-15 2015-07-08 杭州邦盛金融信息技术有限公司 一种基于时间窗口可移动的动态数据快速处理方法
CN105573889A (zh) * 2015-12-15 2016-05-11 上海仪电(集团)有限公司 虚拟机监控数据的存取方法及装置
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090705A (zh) * 2018-10-23 2020-05-01 杭州海康威视数字技术股份有限公司 一种多维数据处理方法、装置及设备、存储介质
CN111090705B (zh) * 2018-10-23 2023-08-25 杭州海康威视数字技术股份有限公司 一种多维数据处理方法、装置及设备、存储介质
CN111835651A (zh) * 2019-04-19 2020-10-27 上海哔哩哔哩科技有限公司 数据写入方法、系统、设备及计算机可读存储介质
CN110535966A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 一种数据处理方法及相关设备
CN110535966B (zh) * 2019-09-05 2021-06-15 腾讯科技(深圳)有限公司 一种数据处理方法及相关设备
CN111897812A (zh) * 2020-07-01 2020-11-06 中国建设银行股份有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN113515549A (zh) * 2021-09-14 2021-10-19 江西科技学院 财务数据查询方法、装置及可读存储介质
CN113515549B (zh) * 2021-09-14 2021-12-10 江西科技学院 财务数据查询方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN108241647B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN108241647A (zh) 数据处理及查询的方法和装置
CN100596353C (zh) 提供日志服务的方法及系统
JPH09311869A (ja) インターネット検索サーバ
TW201513023A (zh) 會話內容合倂方法和系統
EP2657854A1 (en) Method and system for incremental collection of forum replies
CN105376220A (zh) 一种业务实现方法、系统以及服务器
CN101140573B (zh) 一种实现信息搜索的方法及系统
CN105701742A (zh) 酒店抢单方法及系统
WO2005096754A3 (en) System and method of using dna for linking to network resources
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN112954043B (zh) 基于网站访问日志识别用户的方法及计算机设备
CN111610281B (zh) 基于气相色谱质谱谱库鉴定的云平台构架的操作方法
CN112464204A (zh) 账户管理方法和相关产品
CN106021580A (zh) Impala 基于Hadoop集群日志分析方法和系统
CN107370830B (zh) 基于大数据的行业信息推送系统及方法
CN104715284A (zh) 网络预订系统及方法
CN106055591B (zh) 一种天气推送方法及装置
CN103714174B (zh) 用于互联网中加速经验知识积累的信息采集方法及系统
CN102663111A (zh) 一种信息获取方法和设备
KR20180122111A (ko) 공연 및 행사기획 대행 온오프라인 서비스 제공방법
CN103067362B (zh) 资源信息的推送方法及系统
CN113032436B (zh) 基于文章内容和标题的搜索方法和装置
Verma et al. Web Usage mining framework for Data Cleaning and IP address Identification
CN105589863B (zh) 一种搜索方法及数据处理方法、装置及系统
KR20180088260A (ko) 웹 페이지를 생성하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant