CN104598631A - 分布式数据处理平台 - Google Patents
分布式数据处理平台 Download PDFInfo
- Publication number
- CN104598631A CN104598631A CN201510062380.6A CN201510062380A CN104598631A CN 104598631 A CN104598631 A CN 104598631A CN 201510062380 A CN201510062380 A CN 201510062380A CN 104598631 A CN104598631 A CN 104598631A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- data
- query interface
- instruction
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;存储层包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;HBase搭建在HDFS之上,用于存储微博的标识与微博数据之间的对应关系;ES中建立有微博关键字段与微博标识之间的对应关系;应用层接收用户终端发送的处理指令,根据处理指令向查询接口与算法库发送对应的查询请求;查询接口与算法库根据查询请求从存储层中查询微博数据;计算层根据处理指令对查询到的微博数据进行处理,将处理结果反馈给应用层,从而通过HBase和ES的配合使用,提高了分布式数据处理平台的查询速度和分析效率,满足微博大数据的要求。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式数据处理平台。
背景技术
微博是一种典型的大数据类型,它从诞生到现在,发展迅速,例如,新浪微博的每日发博量已经超过一亿条,尤其在突发和热点事件中,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前,针对微博的企业营销和舆情监测是关注的热点,例如,微博实时查询,统计分析,微博分类,热点检测等。
现有技术中,采用Hadoop平台来实现对微博的实时查询、统计分析、微博分类、热点检测等。在Hadoop平台中,微博数据存放在关系型数据库Hbase中。Hadoop平台对微博进行分析时,需要从关系型数据库调取微博数据,基于磁盘对微博数据进行捕捉分析和计算,然后存储至关系型数据库中。然而现有技术中,从关系型数据库调取微博数据,需要根据微博数据的ID等标识顺序查询各对应关系,才能查询到微博数据,从而导致采用Hadoop平台来对微博进行查询分析时的查询速度慢,而磁盘对微博数据进行捕捉分析和计算,分析效率低,难以满足微博大数据的要求。
发明内容
本发明提供一种分布式数据处理平台,用于解决现有技术中Hadoop平台分析效率低的问题。
本发明的第一个方面是提供一种分布式数据处理平台,包括:
存储层、计算层、查询接口与算法库,以及应用层;
所述存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;所述HBase数据库系统搭建在所述HDFS之上,用于存储微博的标识与微博数据之间的对应关系;所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;
所述应用层,用于接收用户终端发送的处理指令,根据所述处理指令向所述查询接口与算法库发送对应的查询请求,所述查询请求中携带微博的标识或微博关键字段;
所述查询接口与算法库,用于根据所述查询请求从存储层中查询微博数据;
所述计算层,用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到处理结果,将所述处理结果反馈给所述应用层。
进一步地,所述应用层包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;
所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;
所述微博搜索组件用于从用户终端接收所述微博搜索指令,根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求;
所述统计分析组件用于从用户终端接收所述统计分析指令,根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求;
所述微博分类组件用于从用户终端接收所述微博分类指令,根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求;
所述事件检测组件用于从用户终端接收所述事件检测指令,根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求。
进一步地,所述查询接口与算法库,包括:统一查询接口、Shark查询引擎和Mahout算法集合;所述统一查询接口用于从应用层的各组件中接收查询请求,根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。
进一步地,所述计算层具体用于,调用所述查询接口与算法库中的Mahout算法集合,根据所述各组件的处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到与所述处理指令对应的处理结果,将所述处理结果通过所述统一查询接口反馈给与所述处理指令对应的组件。
进一步地,所述微博数据包括:微博信息数据、用户数据、评论数据和转发关系数据。
进一步地,所述微博信息数据中包括:每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数;
所述微博信息数据以微博ID和微博创建时间为标识存储在所述HBase数据库系统中。
进一步地,所述用户数据中包括:用户UID、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化URL、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因;
所述用户数据以用户UID为标识存储在所述HBase数据库系统中。
进一步地,所述评论数据中包括:评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源;
所述评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在所述HBase数据库系统中。
进一步地,所述转发关系数据中包括:原始微博ID,原始微博的各个转发微博的ID以及其对应的上一级微博ID;
所述转发关系数据以所述原始微博ID为标识存储在所述HBase数据库系统中。
本发明中,提供一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;HBase数据库系统搭建在HDFS之上,用于存储微博的标识与微博数据之间的对应关系;分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;应用层,用于接收用户终端发送的处理指令,根据处理指令向查询接口与算法库发送对应的查询请求,查询请求中携带微博的标识或微博关键字段;查询接口与算法库,用于根据查询请求从存储层中查询微博数据;计算层,用于根据处理指令对查询接口与算法库查询到的微博数据进行处理,得到处理结果,将处理结果反馈给应用层,从而在HBase数据库系统和分布式索引系统ES的配合使用下,提高分布式数据处理平台查询微博的速度和对微博进行分析的效率,能够满足微博大数据的要求。
附图说明
图1为本发明提供的分布式数据处理平台实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的分布式数据处理平台实施例的结构示意图,如图1所示,包括:
存储层11、计算层12、查询接口与算法库13,以及应用层14;
存储层11,包括:分布式文件系统(Hadoop Distributed File System,HDFS)111、数据库系统(Hadoop Database,HBase)112和分布式索引系统(ElasticSearch,ES)113;HBase数据库系统112搭建在HDFS111之上,用于存储微博的标识与微博数据之间的对应关系;分布式索引系统ES113中建立有微博关键字段与微博标识之间的对应关系;
应用层14,用于接收用户终端发送的处理指令,根据处理指令向查询接口与算法库13发送对应的查询请求,查询请求中携带微博的标识或微博关键字段;
查询接口与算法库13,用于根据查询请求从存储层11中查询微博数据;
计算层12,用于根据处理指令对查询接口与算法库13查询到的微博数据进行处理,得到处理结果,将处理结果反馈给应用层14。
其中,应用层具体可以14包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;
对应的,处理指令具体可以为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;
微博搜索组件用于从用户终端接收微博搜索指令,根据微博搜索指令向查询接口与算法库发送对应的查询请求;
统计分析组件用于从用户终端接收统计分析指令,根据统计分析指令向查询接口与算法库发送对应的查询请求;
微博分类组件用于从用户终端接收微博分类指令,根据微博分类指令向查询接口与算法库发送对应的查询请求;
事件检测组件用于从用户终端接收事件检测指令,根据事件检测指令向查询接口与算法库发送对应的查询请求。
具体地,微博数据包括:微博信息数据、用户数据、评论数据和转发关系数据。
微博信息数据中包括:每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数;微博信息数据以微博ID和微博创建时间为标识存储在HBase数据库系统中。
用户数据中包括:用户身份证明(User Identification,UID)、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化统一资源定位器(Uniform Resoure Locator,URL)、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因;用户数据以用户UID为标识存储在HBase数据库系统中。
评论数据中包括:评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源;评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在HBase数据库系统中。
转发关系数据中包括:原始微博ID,原始微博的各个转发微博的ID以及其对应的上一级微博ID;转发关系数据以原始微博ID为标识存储在HBase数据库系统中。
进一步地,微博关键字段具体可以为微博ID等,与微博关键字段对应的标识具体可以为微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID中的任意一种或多种。
具体地,分布式数据处理平台可以先根据微博ID从分布式索引系统ES中查询相关微博数据,例如微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID等,若信息不全,可以根据微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID中的任意一种或多种在HBase数据库系统中进行补充查询,获取微博数据中的其他参数的信息。
进一步地,查询接口与算法库,包括:统一查询接口、Shark查询引擎和Mahout算法集合;统一查询接口用于从应用层的各组件中接收查询请求,根据查询请求调用Shark查询引擎从存储层中查询微博数据。
进一步地,计算层包括:基于内存的Spark计算引擎;Spark计算引擎用于,调用查询接口与算法库中的Mahout算法集合,根据各组件的处理指令对查询接口与算法库查询到的微博数据进行处理,得到与处理指令对应的处理结果,将处理结果通过统一查询接口反馈给与处理指令对应的组件。
其中,由于Spark计算引擎进行大规模数据计算时,需要调用ES的索引数据。因此本实施例中,可以将Spark计算引擎与ES整合在一起,使得Spark计算引擎可以直接并行访问ES存储的数据。
通过采用统一查询接口,可以将难以整合到一起的组件,例如HBase数据库系统和基于内存的Spark计算引擎,ES和基于内存的Spark计算引擎整合到一起,实现通过统一查询接口对各个组件的数据进行查询。
本实施例中,提供一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;HBase数据库系统搭建在HDFS之上,用于存储微博的标识与微博数据之间的对应关系;分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;应用层,用于接收用户终端发送的处理指令,根据处理指令向查询接口与算法库发送对应的查询请求,查询请求中携带微博的标识或微博关键字段;查询接口与算法库,用于根据查询请求从存储层中查询微博数据;计算层,用于根据处理指令对查询接口与算法库查询到的微博数据进行处理,得到处理结果,将处理结果反馈给应用层,从而在HBase数据库系统和分布式索引系统ES的配合使用下,提高分布式数据处理平台查询微博的速度和对微博进行分析的效率,能够满足微博大数据的要求。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种分布式数据处理平台,其特征在于,包括:
存储层、计算层、查询接口与算法库,以及应用层;
所述存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;所述HBase数据库系统搭建在所述HDFS之上,用于存储微博的标识与微博数据之间的对应关系;所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;
所述应用层,用于接收用户终端发送的处理指令,根据所述处理指令向所述查询接口与算法库发送对应的查询请求,所述查询请求中携带微博的标识或微博关键字段;
所述查询接口与算法库,用于根据所述查询请求从存储层中查询微博数据;
所述计算层,用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到处理结果,将所述处理结果反馈给所述应用层。
2.根据权利要求1所述的分布式数据处理平台,其特征在于,所述应用层包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;
所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;
所述微博搜索组件用于从用户终端接收所述微博搜索指令,根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求;
所述统计分析组件用于从用户终端接收所述统计分析指令,根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求;
所述微博分类组件用于从用户终端接收所述微博分类指令,根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求;
所述事件检测组件用于从用户终端接收所述事件检测指令,根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求。
3.根据权利要求2所述的分布式数据处理平台,其特征在于,所述查询接口与算法库,包括:统一查询接口、Shark查询引擎和Mahout算法集合;所述统一查询接口用于从应用层的各组件中接收查询请求,根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。
4.根据权利要求3所述的分布式数据处理平台,其特征在于,所述计算层包括:基于内存的Spark计算引擎;
所述Spark计算引擎用于,调用所述查询接口与算法库中的Mahout算法集合,根据所述各组件的处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到与所述处理指令对应的处理结果,将所述处理结果通过所述统一查询接口反馈给与所述处理指令对应的组件。
5.根据权利要求1所述的分布式数据处理平台,其特征在于,所述微博数据包括:微博信息数据、用户数据、评论数据和转发关系数据。
6.根据权利要求5所述的分布式数据处理平台,其特征在于,
所述微博信息数据中包括:每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数;
所述微博信息数据以微博ID和微博创建时间为标识存储在所述HBase数据库系统中。
7.根据权利要求5所述的分布式数据处理平台,其特征在于,
所述用户数据中包括:用户UID、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化URL、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因;
所述用户数据以用户UID为标识存储在所述HBase数据库系统中。
8.根据权利要求5所述的分布式数据处理平台,其特征在于,
所述评论数据中包括:评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源;
所述评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在所述HBase数据库系统中。
9.根据权利要求5所述的分布式数据处理平台,其特征在于,
所述转发关系数据中包括:原始微博ID,原始微博的各个转发微博的ID以及其对应的上一级微博ID;
所述转发关系数据以所述原始微博ID为标识存储在所述HBase数据库系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510062380.6A CN104598631B (zh) | 2015-02-05 | 2015-02-05 | 分布式数据处理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510062380.6A CN104598631B (zh) | 2015-02-05 | 2015-02-05 | 分布式数据处理平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598631A true CN104598631A (zh) | 2015-05-06 |
CN104598631B CN104598631B (zh) | 2017-11-14 |
Family
ID=53124416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510062380.6A Active CN104598631B (zh) | 2015-02-05 | 2015-02-05 | 分布式数据处理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598631B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045856A (zh) * | 2015-07-09 | 2015-11-11 | 中国资源卫星应用中心 | 一种基于Hadoop的大数据遥感卫星数据处理系统 |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN106293670A (zh) * | 2015-06-03 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种事件处理方法、设备及一种服务器 |
CN106649426A (zh) * | 2016-08-05 | 2017-05-10 | 浪潮软件股份有限公司 | 一种数据分析方法和数据分析平台以及服务器 |
CN106681781A (zh) * | 2015-11-05 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 实时计算业务的实现方法和系统 |
CN106919675A (zh) * | 2017-02-24 | 2017-07-04 | 浙江大华技术股份有限公司 | 一种数据存储方法及装置 |
CN107220003A (zh) * | 2017-05-26 | 2017-09-29 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN107526600A (zh) * | 2017-09-05 | 2017-12-29 | 成都优易数据有限公司 | 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 |
CN107590251A (zh) * | 2017-09-19 | 2018-01-16 | 郑州云海信息技术有限公司 | 一种数据管理方法及其装置 |
CN108287706A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置 |
CN109284097A (zh) * | 2018-09-07 | 2019-01-29 | 武汉轻工大学 | 实现复杂数据分析的方法、设备、系统及存储介质 |
CN110347680A (zh) * | 2019-06-21 | 2019-10-18 | 北京航空航天大学 | 一种面向云际环境的时空数据索引方法 |
CN110457346A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安财产保险股份有限公司 | 数据查询方法、装置及计算机可读存储介质 |
CN110505273A (zh) * | 2019-07-12 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种服务能力限制的使用方法、设备及可读介质 |
CN110502529A (zh) * | 2019-08-27 | 2019-11-26 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN113570201A (zh) * | 2021-06-30 | 2021-10-29 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440139A (zh) * | 2013-09-11 | 2013-12-11 | 北京邮电大学 | 一种面向主流微博网站微博id的采集方法及工具 |
CN103617169A (zh) * | 2013-10-23 | 2014-03-05 | 杭州电子科技大学 | 一种基于Hadoop的微博热点话题提取方法 |
US20140129558A1 (en) * | 2012-11-07 | 2014-05-08 | International Business Machines Corporation | Timeline-Based Data Visualization of Social Media Topic |
CN104021205A (zh) * | 2014-06-18 | 2014-09-03 | 中国人民解放军国防科学技术大学 | 一种建立微博索引的方法及装置 |
CN104102702A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种实现软硬件结合的面向应用的大数据系统及方法 |
US20140337257A1 (en) * | 2013-05-09 | 2014-11-13 | Metavana, Inc. | Hybrid human machine learning system and method |
CN104199947A (zh) * | 2014-09-11 | 2014-12-10 | 浪潮集团有限公司 | 一种对重点人员言论监督与关联关系挖掘的方法 |
-
2015
- 2015-02-05 CN CN201510062380.6A patent/CN104598631B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140129558A1 (en) * | 2012-11-07 | 2014-05-08 | International Business Machines Corporation | Timeline-Based Data Visualization of Social Media Topic |
US20140337257A1 (en) * | 2013-05-09 | 2014-11-13 | Metavana, Inc. | Hybrid human machine learning system and method |
CN103440139A (zh) * | 2013-09-11 | 2013-12-11 | 北京邮电大学 | 一种面向主流微博网站微博id的采集方法及工具 |
CN103617169A (zh) * | 2013-10-23 | 2014-03-05 | 杭州电子科技大学 | 一种基于Hadoop的微博热点话题提取方法 |
CN104021205A (zh) * | 2014-06-18 | 2014-09-03 | 中国人民解放军国防科学技术大学 | 一种建立微博索引的方法及装置 |
CN104102702A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种实现软硬件结合的面向应用的大数据系统及方法 |
CN104199947A (zh) * | 2014-09-11 | 2014-12-10 | 浪潮集团有限公司 | 一种对重点人员言论监督与关联关系挖掘的方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106293670A (zh) * | 2015-06-03 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种事件处理方法、设备及一种服务器 |
CN106293670B (zh) * | 2015-06-03 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 一种事件处理方法、设备及一种服务器 |
CN105045856B (zh) * | 2015-07-09 | 2018-08-10 | 中国资源卫星应用中心 | 一种基于Hadoop的大数据遥感卫星数据处理系统 |
CN105045856A (zh) * | 2015-07-09 | 2015-11-11 | 中国资源卫星应用中心 | 一种基于Hadoop的大数据遥感卫星数据处理系统 |
CN106681781A (zh) * | 2015-11-05 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 实时计算业务的实现方法和系统 |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN106649426A (zh) * | 2016-08-05 | 2017-05-10 | 浪潮软件股份有限公司 | 一种数据分析方法和数据分析平台以及服务器 |
CN106919675A (zh) * | 2017-02-24 | 2017-07-04 | 浙江大华技术股份有限公司 | 一种数据存储方法及装置 |
CN106919675B (zh) * | 2017-02-24 | 2019-12-20 | 浙江大华技术股份有限公司 | 一种数据存储方法及装置 |
CN108287706A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置 |
CN107220003B (zh) * | 2017-05-26 | 2020-03-24 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN107220003A (zh) * | 2017-05-26 | 2017-09-29 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN107526600A (zh) * | 2017-09-05 | 2017-12-29 | 成都优易数据有限公司 | 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 |
CN107526600B (zh) * | 2017-09-05 | 2020-11-10 | 成都优易数据有限公司 | 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法 |
CN107590251A (zh) * | 2017-09-19 | 2018-01-16 | 郑州云海信息技术有限公司 | 一种数据管理方法及其装置 |
CN109284097A (zh) * | 2018-09-07 | 2019-01-29 | 武汉轻工大学 | 实现复杂数据分析的方法、设备、系统及存储介质 |
CN110347680A (zh) * | 2019-06-21 | 2019-10-18 | 北京航空航天大学 | 一种面向云际环境的时空数据索引方法 |
CN110347680B (zh) * | 2019-06-21 | 2021-11-12 | 北京航空航天大学 | 一种面向云际环境的时空数据索引方法 |
CN110457346A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安财产保险股份有限公司 | 数据查询方法、装置及计算机可读存储介质 |
CN110457346B (zh) * | 2019-07-05 | 2024-04-30 | 中国平安财产保险股份有限公司 | 数据查询方法、装置及计算机可读存储介质 |
CN110505273A (zh) * | 2019-07-12 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种服务能力限制的使用方法、设备及可读介质 |
CN110505273B (zh) * | 2019-07-12 | 2022-04-22 | 苏州浪潮智能科技有限公司 | 一种服务能力限制的使用方法、设备及可读介质 |
CN110502529A (zh) * | 2019-08-27 | 2019-11-26 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN113570201A (zh) * | 2021-06-30 | 2021-10-29 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN104598631B (zh) | 2017-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598631A (zh) | 分布式数据处理平台 | |
CN103106249B (zh) | 一种基于Cassandra的数据并行处理系统 | |
Ma et al. | Big graph search: challenges and techniques | |
CN109614402B (zh) | 多维数据查询方法和装置 | |
CN103729471A (zh) | 数据库查询方法和装置 | |
US10600011B2 (en) | Methods and systems for improving engagement with a recommendation engine that recommends items, peers, and services | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
US20130325847A1 (en) | Graph-based searching | |
CN102375837A (zh) | 数据采集系统和方法 | |
US20230017300A1 (en) | Query method and device suitable for olap query engine | |
US10496645B1 (en) | System and method for analysis of a database proxy | |
CN110704418A (zh) | 区块链信息查询方法、装置和设备 | |
US20210165911A1 (en) | System and method for improving security of personally identifiable information | |
CN102521364A (zh) | 一种图上两点间最短路径查询方法 | |
US20150302088A1 (en) | Method and System for Providing Personalized Content | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
CN107066532A (zh) | 一种生成企业横纵向关系图的方法及系统 | |
CN102193988A (zh) | 一种图形数据库节点数据的检索方法及系统 | |
CN109726219A (zh) | 数据查询的方法及终端设备 | |
US20130159273A1 (en) | Providing relevant resources using social media and search | |
CN107679097A (zh) | 一种分布式数据处理方法、系统和存储介质 | |
CN109302406B (zh) | 一种分布式网页取证的方法及系统 | |
CN108319604A (zh) | 一种hive中大小表关联的优化方法 | |
CN104636384B (zh) | 一种处理文档的方法及装置 | |
CN112579633A (zh) | 一种数据检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |