CN105069108B - 基于PaaS系统大数据查询方法及装置 - Google Patents

基于PaaS系统大数据查询方法及装置 Download PDF

Info

Publication number
CN105069108B
CN105069108B CN201510484889.XA CN201510484889A CN105069108B CN 105069108 B CN105069108 B CN 105069108B CN 201510484889 A CN201510484889 A CN 201510484889A CN 105069108 B CN105069108 B CN 105069108B
Authority
CN
China
Prior art keywords
user
user behavior
behavior data
paas
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510484889.XA
Other languages
English (en)
Other versions
CN105069108A (zh
Inventor
王阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201510484889.XA priority Critical patent/CN105069108B/zh
Publication of CN105069108A publication Critical patent/CN105069108A/zh
Application granted granted Critical
Publication of CN105069108B publication Critical patent/CN105069108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于PaaS系统的大数据查询方法及装置,该方法包括:获取用户输入的查询请求信息;根据用户输入的查询请求信息,查询存储的用户行为数据,并存储查询到的查询结果以及将查询结果展示给用户;所述存储的用户行为数据包括抓取的外部系统记录的用户行为数据和抓取的PaaS系统内部记录的用户行为数据。该方法能够方便、快捷、高速、高效的实现用户行为数据的查询分析,且成本投入低。

Description

基于PaaS系统大数据查询方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于PaaS系统的大数据查询方法及装置。
背景技术
随着网络的不断发展,为用户提供服务的方法已经由软件即服务(Software as aService,SaaS)的方式转变为平台即服务(Platform as a Service,PaaS)的方式。
部署在PaaS系统中的很多应用都是各种类型的网站,这些网站都希望能更多的知道用户的行为,比如:对网站的哪些内容访问更多,用户的浏览器客户端是什么,在什么时间访问,停留了多久等等。对于以上的需求一般是通过分析请求日志得出的,一般的网站对于每次用户请求都会记录一条日志,这样就可以获得访问时用户的一些详细信息。
同样的,一般PaaS系统对于每次访问都会记录一条日志,比如来源IP,浏览器类型,访问时间,加载这个页面花了多长时间等。而应用本身也可以记录更详细的日志,这些日志最终都存到PaaS平台专门的日志中心里。
用户可以使用这些PaaS系统的原始访问日志,以及应用自身记录的日志进行下载,对日志进行分析。或通过查询工具进行简单的查询搜索,但如果数据量比较大的情况下或者需要做一些比较复杂的查询的情况下,比如两个月内访问的页面top10,并列出对应的浏览器类型。对于这种数据量比较大的查询分析或多功能的查询需求,则需要自己再建立一套数据库然后将数据(原始日志)导入进去,再做查询。如果每个用户都自己搭建数据库来实现查询分析,则其成本投入会很高,而且操作也复杂。
尤其是对于某些访问量很大的网站,一段时间内的日志也很大,积累了起来可能会有几百G几千G的数据量规模,如果采用传统的数据库查询起来也会很慢,同样如果用户自己搭建也需要很多机器也很麻烦。
发明内容
有鉴于此,本发明的一个目的是提供一种基于PaaS系统的大数据查询方法及装置,用以解决现有技术中存在的用户不能方便查询用户行为数据,各自重新搭建查询系统成本投入高、且查询速度慢、查询效率低的问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
本发明实施例提供一种基于PaaS系统的大数据查询方法,包括:
获取用户输入的查询请求信息;
根据所述查询请求信息,查询存储的用户行为数据,并存储查询到的查询结果以及将查询结果展示给用户;
所述存储的用户行为数据包括抓取的外部系统记录的用户行为数据和抓取的PaaS系统内部记录的用户行为数据。
在一些可选的实施例中,根据所述查询请求信息,查询存储的用户行为数据,包括:
将用户输入的结构化查询语言SQL语句,加入到待查询任务队列中;
依次从待查询任务队列中取出待查询任务,根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳map-reduce,根据map-reduce结果查询存储的用户行为数据,得到查询结果。
在一些可选的实施例中,获取用户输入的查询请求信息,包括:
获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,所述查询结果记录表中的每个查询结果包括下列信息中的至少一个:
查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
在一些可选的实施例中,抓取外部系统记录的用户行为数据的过程,具体包括:
根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件。
在一些可选的实施例中,上述方法还包括:
当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据,当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
本发明实施例提供一种基于PaaS系统的大数据查询装置,包括:抓取模块、存储模块、计算模块和展现模块;
所述抓取模块,用于抓取外部系统记录的用户行为数据和PaaS系统内部记录的用户行为数据;
所述存储模块,用于存储所述抓取模块抓取的用户行为数据,以及存储所述计算模块得到的查询结果;
所述计算模块,用于根据用户输入的查询请求信息,查询存储模块中存储的用户行为数据,并将查询到的查询结果提供给所述存储模块;
所述展现模块,用于获取用户输入的查询请求信息,用于将存储模块中的存储结果展示给用户。
在一些可选的实施例中,所述计算模块,具体用于:
将用户输入的结构化查询语言SQL语句,加入到待查询任务队列中;依次从待查询任务队列中取出待查询任务,根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳map-reduce,根据map-reduce结果查询所述存储模块中存储的用户行为数据,得到查询结果。
在一些可选的实施例中,所述展现模块,具体用于:
获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,所述查询结果记录表中的每个查询结果包括下列信息中的至少一个:
查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
在一些可选的实施例中,所述抓取模块,具体用于:
根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件。
在一些可选的实施例中,所述抓取模块,还用于:
当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据,当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
本发明实施例提供的基于PaaS系统的大数据查询方法及装置,通过PaaS系统对抓取的外部系统记录的用户行为数据和PaaS系统内部记录的用户行为数据进行统一的存储、并由PaaS系统根据用户输入的查询请求信息,从存储的用户行为数据中获取查询结果,从而使得用户不需要再自己搭建数据库及查询系统,即可简单方便的实现用户行为数据的查询,降低了用户进行行为数据查询的成本投入,该方式实现简单、方便,查询速度快,查询效率高。
为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例一中基于PaaS系统的大数据查询方法的流程图;
图2是本发明实施例二中基于PaaS系统的大数据查询方法的流程图;
图3是本发明实施例中基于PaaS系统的大数据查询装置的结构示意图;
图4是本发明实施例中展现模块创建表界面的示例图;
图5是本发明实施例中展现模块展现的用户查询界面的示例图;
图6是本发明实施例中展现模块展现的查询结果界面示例图;
图7是本发明实施例中抓取模块抓取文件的示例图;
图8是本发明实施例中抓取模块上传文件的界面示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的用户不能方便查询用户行为数据,各自重新搭建查询系统成本投入高、且查询速度慢、查询效率低的问题,本发明实施例提供一种基于PaaS系统的大数据查询方法及装置。
实施例一
本发明实施例一提供的基于PaaS系统的大数据查询方法,其流程如图1所示,包括如下步骤:
步骤S101:获取用户输入的查询请求信息。
用户可以通过统一资源定位器(Uniform Resource Locator,URL)界面输入查询请求信息,查询请求信息可以通过不同的形式表示,例如可以是结构化查询语言(Structured Query Language,SQL)语句表示。
该步骤获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,其中,查询结果记录表中的每个查询结果包括下列信息中的至少一个:查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
步骤S102:根据用户输入的查询请求信息,查询存储的用户行为数据。
以查询请求信息是SQL语句表示的为例,获取到用户输入的SQL语句后,则可以获取到用户输入的诸如查询关键字等信息,从而基于查询请求信息从存储的用户行为数据中查询符合要求的用户行为数据。
其中,存储的用户行为数据包括抓取的外部系统记录的用户行为数据和抓取的PaaS系统内部记录的用户行为数据。
步骤S103:存储查询到的查询结果以及将查询结果展示给用户。
根据查询请求信息查询到符合要求的用户行为数据后,将查询到的查询结果进行存储,并将存储的查询结果展示给用户。可以通过结果展示页面进行展示,用户也可以在展示页面中下载查询结果。
实施例二
本发明实施例二提供一种基于PaaS系统的大数据查询方法的具体实现过程,其流程如图2所示,包括如下步骤:
步骤S201:抓取外部系统记录的用户行为数据和抓取的PaaS系统内部记录的用户行为数据。
用户在使用PaaS系统时记录的用户行为数据,包括PaaS系统记录的用户行为日志和用户自身记录的用户行为日志,都会存入PaaS系统中,只要将这些日志直接拿来使用就可以了,而不在PaaS中的用户行为数据,如果是通过网络可访问的,则也可以通过PaaS中特定的模块抓取过来使用。
抓取外部系统记录的用户行为数据的过程,具体包括:
根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件。可以通过URL界面添加多个待抓取的用户行为文件。其中用户行为文件可以是用户行为日志或其他记录用户行为的文件。
步骤S202:当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据。
当抓取用户行为数据,例如某一个用户行文文件失败时,进行重试,可以设定抓取操作的失败次数,以确定重试几次之后就不再重试,或可以设定抓取操作的执行时间,以确定重试操作持续到的时间长度。
步骤S203:当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
当重试过程中,抓取的失败次数超过设定的次数阈值时,则结束对相应用户行为文件的抓取操作;或者当抓取操作的执行时间超过设定的时间阈值时结束对相应用户行为文件的抓取操作。
步骤S204:获取用户输入的结构化查询语言SQL语句。
用户通过SQL语句实现查询请求信息的输入,例如:对表test执行SQL语句“select*from test where domain=’aa’”对应的操作,则输入该SQL语句。
步骤S205:将用户输入的SQL语句,加入到待查询任务队列中。
将用户输入的SQL语句转成映射-归纳(map-reduce),加入到待查询任务队列中
步骤S206:依次从待查询任务队列中取出待查询任务。
步骤S207:根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳(map-reduce)。
通过映射-归纳可以实现分解任务,将任务分解切割,从而可以由多台设备并行执行。
步骤S208:根据map-reduce结果查询存储的用户行为数据,得到查询结果。
当查询时间超过设定的查询时间阈值时,即查询超时时,将任务杀掉,并重新输入SQL进行查询。
上述步骤S205-步骤S208实现了根据用户输入的查询请求信息,查询存储的用户行为数据。
步骤S209:存储查询到的查询结果以及将查询结果展示给用户。
可以通过展示结果界面将查询结果展示给用户,一个展示结果界面中可以展示多个查询结果。
基于同一发明构思,本发明实施例还提供一种基于PaaS系统的大数据查询装置,其结构如图3所示,包括抓取模块301、存储模块302、计算模块303和展现模块304。
抓取模块301,用于抓取外部系统记录的用户行为数据和PaaS系统内部记录的用户行为数据。
存储模块302,用于存储抓取模块抓取的用户行为数据,以及存储计算模块303得到的查询结果。
计算模块303,用于根据用户输入的查询请求信息,查询存储模块302中存储的用户行为数据,并将查询到的查询结果提供给存储模块302。
展现模块304,用于获取用户输入的查询请求信息,用于将存储模块302中的存储结果展示给用户。
优选的,上述计算模块303,具体用于将用户输入的结构化查询语言SQL语句,加入到待查询任务队列中;依次从待查询任务队列中取出待查询任务,根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳map-reduce,根据map-reduce结果查询存储模块302中存储的用户行为数据,得到查询结果。
优选的,上述展现模块304,具体用于获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,其中,查询结果记录表中的每个查询结果包括下列信息中的至少一个:查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
优选的,上述抓取模块301,具体用于根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件。
优选的,上述抓取模块301,还用于当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据,当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
上述装置中的各个模块的部分具体功能描述如下:
展现模块304负责提供用户输入界面,例如图4所示为一个用户输入界面的示例,具体为展现模块创建表的界面。用户可以指定已知的文件,使用这些文件创建表,可以创建多张表,然后输入SQL语句进行查询。如图4所示的,当用户将从外部系统抓取到的用户行为文件或者PaaS系统内部的用户行为文件等传到存储模块302中后,就可以在这个用户输入界面中对指定的文件进行创建表操作,可以创建多张表,创建的表就是关系型数据库中的表。
如图5所示为一个用户输入界面的示意,具体为展现模块304展现的用户查询界面的示例,在这个界面中,用户可以根据已经创建的表,然后执行SQL语句对应的查询任务。
如图6所示为展示界面中的查询结果界面示例图,展现模块304可以将查询结果通过该界面展示给用户,在这个界面中用户可以下载已经执行完的任务,比如对表test执行select*from test where domain=’aa’,执行的结果会自动生成一个文本文件然后放到存储模块302中,展现模块304可以将这个结果下载下来进行分析。图6中所示的查询结果页面中,通过查询结果记录表记录了四个查询结果,例如第一个查询结果查询开始时间、查询结束时间、输入字节数、输出字节数、CPU占用时间(cpu-time)、map数量、reduce数量、失败原因等。
抓取模块301实现抓取用户行为数据的功能,用户可以指定一些外部系统的用户行为数据,可以是文本类型的数据,比如http方式的或者ftp方式的,然后抓取模块301将这些用户行为数据下载到本地的存储模块302中。在展示模块304中可以向用户提供一个输入抓取URL的界面,用户可以输入待抓取的URL地址。
图7所示为抓取模块抓取文件的示例。其中图7所显示的为抓取模块301正在抓取的所有用户行为文件的列表,其中显示了要抓取得多个文件,如果抓取失败就重试,重试若干次都失败表示抓取失败。
图8所示为抓取模块301上传文件的界面示例。其作用是将外部系统的用户行为文件下载下来,再上传到PaaS系统中的存储模块302中。外部系统的用户行为文件是一个可以访问的URL,比如ftp,http的一个页面,这个页面是一个文件的列表,然后抓取模块301将http或者ftp中的文件列表全部抓取下来。如图8所示,用户点击上传文件,选择协议类型,输入URL,点击获取文件即可完成操作。
计算模块303负责将用户输入的SQL语句转成map-reduce,计算模块303没有界面显示功能,它将用户输入的SQL语句放到待查询的队列中,然后依次从队列中取出待查询的任务再执行map-reduce实现查询任务,最终将SQL语句的查询结果放到存储模块302中。计算模块303可以是一台或多台设备搭建的分布式环境,可以动态的做水平扩展。
存储模块302将PaaS系统记录的用户行为数据存入一个专门的地方,供之后的map-reduce任务使用,以及将抓取模块301抓取到的外部系统的用户行为数据存储起来。存储模块302还可以将计算模块303获取到的查询结果存储下来方便之后展现给用户。
本发明实施例提供的上述基于PaaS系统的大数据查询方法及装置,通过PaaS系统对抓取的外部系统记录的用户行为数据和PaaS系统内部记录的用户行为数据进行统一的存储、并由PaaS系统根据用户输入的查询请求信息,从存储的用户行为数据中获取查询结果。该实现方法用户无需关心繁琐的细节,只将关注点集中在输入查询请求信息,如SQL语句,以及获取查询结果上,中间的过程都由PaaS完成。从而使得用户不需要再自己搭建数据库及查询系统,即可简单方便的实现用户行为数据的查询,降低了用户进行行为数据查询的成本投入,该方式实现简单、方便,查询速度快,查询效率高。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于平台即服务PaaS系统的大数据查询方法,其特征在于,包括:
获取用户输入的查询请求信息;
根据所述查询请求信息,查询存储的用户行为数据,并存储查询到的查询结果以及将查询结果展示给用户;所述存储的用户行为数据包括抓取的外部系统记录的用户行为数据和抓取的PaaS系统内部记录的用户行为数据;
PaaS系统内部记录的用户行为数据包括PaaS系统记录的用户行为日志和用户自身记录的用户行为日志,通过用户在使用PaaS系统时存入PaaS系统中;而不在PaaS中的外部系统记录的用户行为数据,如果通过网络可访问,则通过PaaS系统中特定的模块抓取;
所述抓取外部系统记录的用户行为数据的过程包括,根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件。
2.如权利要求1所述的方法,其特征在于,根据所述查询请求信息,查询存储的用户行为数据,包括:
将用户输入的结构化查询语言SQL语句,加入到待查询任务队列中;
依次从待查询任务队列中取出待查询任务,根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳map-reduce,根据map-reduce结果查询存储的用户行为数据,得到查询结果。
3.如权利要求1所述的方法,其特征在于,获取用户输入的查询请求信息,包括:
获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,所述查询结果记录表中的每个查询结果包括下列信息中的至少一个:
查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
4.如权利要求1-3任一所述的方法,其特征在于,还包括:
当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据,当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
5.一种基于平台即服务PaaS系统的大数据查询装置,其特征在于,包括:抓取模块、存储模块、计算模块和展现模块;
所述抓取模块,用于抓取外部系统记录的用户行为数据和PaaS系统内部记录的用户行为数据;
PaaS系统内部记录的用户行为数据包括PaaS系统记录的用户行为日志和用户自身记录的用户行为日志,通过用户在使用PaaS系统时存入PaaS系统中;外部系统记录的用户行为数据,如果通过网络可访问,则通过PaaS系统中特定的模块抓取;
所述抓取外部系统记录的用户行为数据的过程包括,根据用户通过URL界面输入的待抓取的URL地址,从URL地址对应的页面中抓取文件列表中的用户行为文件;
所述存储模块,用于存储所述抓取模块抓取的用户行为数据,以及存储所述计算模块得到的查询结果;
所述计算模块,用于根据用户输入的查询请求信息,查询存储模块中存储的用户行为数据,并将查询到的查询结果提供给所述存储模块;
所述展现模块,用于获取用户输入的查询请求信息,用于将存储模块中的存储结果展示给用户。
6.如权利要求5所述的装置,其特征在于,所述计算模块,具体用于:
将用户输入的结构化查询语言SQL语句,加入到待查询任务队列中;依次从待查询任务队列中取出待查询任务,根据待查询任务对应的SQL语句,对待查询任务进行映射-归纳map-reduce,根据map-reduce结果查询所述存储模块中存储的用户行为数据,得到查询结果。
7.如权利要求5所述的装置,其特征在于,所述展现模块,具体用于:
获取用户通过URL界面输入的SQL语句,并创建查询结果记录表,所述查询结果记录表中的每个查询结果包括下列信息中的至少一个:
查询开始时间、查询结束时间、输入字节数、输出字节数、下载时间、记录日志时间、CPU占用时间、映射map数量、归纳reduce数量。
8.如权利要求5-7任一所述的装置,其特征在于,所述抓取模块,还用于:
当抓取用户行为数据失败时,重新尝试抓取未成功抓取的用户行为数据,当失败次数大于设定的次数阈值时或抓取操作的执行时间超过设定的时间阈值时,结束任务。
CN201510484889.XA 2015-08-07 2015-08-07 基于PaaS系统大数据查询方法及装置 Active CN105069108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484889.XA CN105069108B (zh) 2015-08-07 2015-08-07 基于PaaS系统大数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484889.XA CN105069108B (zh) 2015-08-07 2015-08-07 基于PaaS系统大数据查询方法及装置

Publications (2)

Publication Number Publication Date
CN105069108A CN105069108A (zh) 2015-11-18
CN105069108B true CN105069108B (zh) 2019-05-07

Family

ID=54498478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484889.XA Active CN105069108B (zh) 2015-08-07 2015-08-07 基于PaaS系统大数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN105069108B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445870A (zh) * 2018-09-28 2019-03-08 浙江乾冠信息安全研究院有限公司 一种数据处理方法、电子设备以及存储介质
CN112434205A (zh) * 2020-11-30 2021-03-02 北京秒针人工智能科技有限公司 基于数据站点的数据集成抓取方法、系统及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546571A (zh) * 2013-10-29 2014-01-29 北京华胜天成科技股份有限公司 一种平台即服务实现方法及装置
CN104579777A (zh) * 2015-01-06 2015-04-29 浪潮软件股份有限公司 日志管理系统和实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX350877B (es) * 2011-09-19 2017-09-19 Tata Consultancy Services Ltd Plataforma informática para el desarrollo y despliegue de aplicaciones y servicios basados en datos de sensores.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546571A (zh) * 2013-10-29 2014-01-29 北京华胜天成科技股份有限公司 一种平台即服务实现方法及装置
CN104579777A (zh) * 2015-01-06 2015-04-29 浪潮软件股份有限公司 日志管理系统和实现方法

Also Published As

Publication number Publication date
CN105069108A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
JP6488508B2 (ja) ウェブページのアクセス方法、装置、デバイス及びプログラム
US9317392B2 (en) Methods and automated systems for testing, optimization, and analysis that preserve continuity in identities and status of users who access remote information from different contexts
JP5443513B2 (ja) ドメインにわたりクッキーを処理する方法およびシステム
US11977532B2 (en) Log record identification using aggregated log indexes
CN104699718B (zh) 用于快速引入业务数据的方法和装置
JP2010079549A (ja) 管理装置及び計算機システム
CN105468737A (zh) 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN105095423B (zh) 计数数据写入方法和装置
US10152239B1 (en) Migration to a multi-tiered data store
CN107577590B (zh) 基于数据库服务实时调用虚拟接口的方法及装置
US20170139909A1 (en) Value-based differential data
CN109947373A (zh) 一种数据处理方法和装置
CN109766206A (zh) 一种日志采集方法及系统
CN103237003A (zh) 对网络中的高访问流量进行响应的方法和装置
CN107992529A (zh) 一种关键词联想方法与装置
CN105069108B (zh) 基于PaaS系统大数据查询方法及装置
RU2691834C1 (ru) Способ управления данными веб-сайта
US11714573B1 (en) Storage optimization in a distributed object store
CN105446981B (zh) 站点地图生成方法、访问方法及装置
CN107908775A (zh) 商品信息的动态展现方法、电子设备、存储介质
US11514127B2 (en) Missing web page relocation
CN104361094A (zh) 搜索结果中文件的保存方法、装置和浏览器客户端
CN110888840A (zh) 分布式文件系统中的文件查询方法、装置、设备及介质
US20160034700A1 (en) Search permissions within hierarchically associated data
CN115756520A (zh) 一种分布式集群中的FlinkSQL部署方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230424

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right