CN110147398B - 一种数据处理方法、装置、介质和电子设备 - Google Patents

一种数据处理方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN110147398B
CN110147398B CN201910339253.4A CN201910339253A CN110147398B CN 110147398 B CN110147398 B CN 110147398B CN 201910339253 A CN201910339253 A CN 201910339253A CN 110147398 B CN110147398 B CN 110147398B
Authority
CN
China
Prior art keywords
data
query
server
quality data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910339253.4A
Other languages
English (en)
Other versions
CN110147398A (zh
Inventor
康凯
吴利华
王剑
孙振喜
李霖洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910339253.4A priority Critical patent/CN110147398B/zh
Publication of CN110147398A publication Critical patent/CN110147398A/zh
Application granted granted Critical
Publication of CN110147398B publication Critical patent/CN110147398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了一种数据处理方法、装置、介质和电子设备,该方法包括:第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列;调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎;调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库;第二服务器接收第二类数据,将所述第二类数据存入存储服务器。本公开通过对不同类型数据分类处理,加快了后期数据的查询应用。

Description

一种数据处理方法、装置、介质和电子设备
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法、装置、介质和电子设备。
背景技术
随着移动通信技术的发展和移动互联网的高速发展,移动App能提供的内容越来越丰富,产品的网络体验极大的影响了产品的留存,继而决定了产品的盈利能力。为了提升移动App的网络体验,诸如HTTP/2,QUIC等新的协议,CDN,动态加速等整体加速方案等技术不断的演进。然而,如何从每天海量的用户网络通讯数据中获取足够有效的信息,及时的发现故障,提供诊断依据,并加以分析沉淀,产生能指导实际生产的方法论和模型,一直是一个颇具挑战的难题。
当前业界对大数据的处理和分析的优化主要从如下一些角度设计:
1.存储模型:以Hbase,Hive,ElasticSearch等为代表的列式存储OLAP。
2.计算模型:MapReduce,Spark,Storm等分布式计算引擎。
3.存储载体:为了实现更高的吞吐和更快的响应,大部分存储引擎都会使用内存作为优先的存储载体作为热数据的查询入口,对于冷数据和更老的历史数据则会持久化至HDFS等文件系统中。
以上提到的各个角度或者产品通常都只解决了大数据处理和分析中的某一环节的特定问题,如何整体上提供大数据的高效收集,处理,高速查询一直缺少有效的解决方案,存在一些设计和实施上的难点。
公开内容
本公开的目的在于提供一种数据处理方法、装置、介质和电子设备,能够解决上述提到的至少一个技术问题。具体方案如下:
根据本公开的具体实施方式,第一方面,本公开提供一种数据处理方法,应用于服务端,包括:
第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列;
调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎;
调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库;
第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
可选的,所述第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列,包括:
第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列。
可选的,所述第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列,包括:
第一服务器接收加密的文本形式的质量数据;
将所述加密的文本形式的质量数据解密后存入Kafka消息队列。
可选的,所述调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎,包括:
调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据;
将所述质量数据进行预聚合处理后写入聚合查询分析引擎;
将所述质量数据清洗后写入明细查询分析引擎。
可选的,所述调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库,包括:
调用第二处理引擎,从所述Kafka消息队列中读取质量数据;
通过计划任务的方式从所述第二处理引擎中定时计算产出天级或者小时级的离线报表数据写入关系数据库。
可选的,所述第二服务器接收第二类数据,将所述第二类数据存入存储服务器,包括:
第二服务器以二进制加密的形式接收诊断数据;
所述第二服务器将所述二进制加密的所述诊断数据存入对象存储服务器,同时将所述诊断数据的元信息存入关系型数据库。
可选的,还包括:
接收查询指令,并从缓存区获取查询结果;
若获取到所述查询结果,则将所述查询结果返回客户端;
若未获取到所述查询结果,则根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询。
可选的,所述根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询,包括:
查询指令请求查询的是质量数据的明细,则到明细查询分析引擎进行查询,和/或
查询指令请求查询的是质量聚合数据,则到聚合查询分析引擎进行查询,和/或
查询指令请求查询的是诊断数据,则先从关系数据库中查询所述诊断数据的元信息,获得加密的所述诊断数据在对象存储服务器的存储地址,然后从所述对象存储服务器获得所述诊断数据。
根据本公开的具体实施方式,第二方面,本公开提供一种数据处理装置,应用于服务端,包括:
第一存储单元,用于第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列;
第一调用单元,用于调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎;
第二调用单元,用于调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库;
第二存储单元,用于第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
根据本公开的具体实施方式,第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上任一项所述的方法。
根据本公开的具体实施方式,第四方面,本公开提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述的方法。
本公开实施例的上述方案与现有技术相比,至少具有以下有益效果:本公开通过提供一种数据处理方法、装置、介质和电子设备,本公开的数据传输层可以有效的解决网络数据的收集问题,通过把数量较多,单个数据较少的网络质量数据和数量较少,单个数据较大的网络诊断数据通过不同的上报通道传输,实现了安全,有效的数据采集。本公开的数据处理层,通过使用Kafka和Flink来对原始数据进行一次或者多次的清洗和整形,能根据实际拥有的计算资源和计算引擎能力,灵活的调整数据量,调整数据形态。本公开的数据存储层采用了不同的存储引擎来适应不同的查询场景,通过Druid提供了实时的聚合数据的查询,通过ElasticSearch提供了明细数据的查询和全文检索,通过Hive提供了归档的原始数据的查询,通过MySQL提供了离线的天级报表的查询。本公开的数据查询层为带有缓存的web应用,用户通过网页前端或者Rest API能方便有效的执行不同类型的查询而不用关心具体实现。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本公开实施例的数据处理方法的应用场景图;
图2示出了根据本公开实施例的数据处理方法流程图;
图3示出了根据本公开实施例的数据处理装置结构框图;
图4示出了根据本公开的实施例的电子设备连接结构示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本公开实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本公开实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本公开的可选实施例。
实施例1
如图1所示,为本公开实施例的一种应用场景图,该应用场景为客户端向服务端发送数据,服务端对数据进行采样、筛选、整形等操作后存储到相应的区域,用户通过调用相应的数据获取数据服务。其中,所述数据可以为网络数据,也可以为处理业务埋点的数据。为了说明方便,本实施例以网络数据为例进行描述。
如图1所示,网络数据分析系统由四部分组成。数据传输层,数据处理层,数据存储层,数据查询层。数据传输层的作用是将客户端的网络质量数据和网络诊断数据安全,高效的发送至服务端。数据处理层的作用是对原始数据进行初步的筛选过滤,选取感兴趣的部分,剔除异常数据,对数据格式整形以方便后续操作。数据存储层的作用是摄入清洗之后的原始数据,根据不同的需求存入不同的存储引擎,对于不同类型的数据可以设置不同的持久化周期。数据查询层的作用是接收终端用户的查询请求,根据需求去缓存或者不同的存储引擎找到最匹配的结果,实时或近似实时的返回给用户。
如图2所示,根据本公开的具体实施方式,第一方面,本公开提供一种网络数据处理方法,应用于服务端,包括如下步骤:
步骤S102:第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列。
服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。在网络环境下,根据服务器提供的服务类型不同,分为文件服务器、数据库服务器、应用程序服务器、WEB服务器等。本实施例所述第一服务器指用于数据接收存储的数据库服务器。
网络数据类型包括:网络质量数据和网络诊断数据,
网络质量数据例如:发送/接收数据的大小、DNS解析时间、建立连接时间、发送/接收数据时间等。
网络诊断数据是指客户端正常或非正常状态类数据,例如报错时间数据,报错位置数据,正常运行节点数据等。
可选的,所述第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列,包括:
第一服务器接收文本形式的网络质量数据,将所述网络质量数据存入Kafka消息队列。
可选的,所述文本形式的网络质量数据可以进行加密,加密的方法可采用常规的加密方法,此处不再赘述。然后将所述加密的文本形式的质量数据解密后存入Kafka消息队列。
Kafka消息队列是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(例如网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些动作数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息,所述集群通常包括一个或多个服务器。
步骤S104:调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎。
所述第一处理引擎选用流式计算引擎Flink,它可以从Kafka消息队列中读取原始网络质量数据,进行采样,筛选,整形等操作,输出规范的数据。
调用流式计算引擎Flink,对数据进行实时查询,从所述Kafka消息队列中读取所述网络质量数据;将所述网络质量数据进行预聚合处理后写入聚合查询分析引擎,预聚合是指根据数据格式、类别进行归类,使得查询更加快捷。将所述网络质量数据清洗后写入明细查询分析引擎,数据清洗主要是去除掉噪音数据后的数据明细,存储入明细查询分析引擎后仍然可以实时查询数据明细。
选用Druid作为清洗后数据的聚合查询分析引擎,Druid是分布式的OLAP系统,也是天然的时间序列数据库(TSDB),通过对数据的预聚合(上卷),Druid可以有效的减少数据存储量,提供高速的查询,但预聚合会丢失明细数据,因此只适合用来做聚合查询。
选用ElasticSearch作为清洗后数据的明细查询分析引擎,ElasticSearch通过倒排索引的方式支持高效的全文检索,通过ElasticSearch弥补Druid的不足之处,适合少量数据精准查询的场景。
步骤S106:调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库。
选用HDFS作为原始数据归档层,通过计划任务的方式,定时从Kafka消息队列中将原始网络质量数据落盘至HDFS。
选用Hive作为归档数据的查询引擎,即第二处理引擎,通过HDFS上的归档数据能查询到可用周期内的原始网络质量数据,Hive可以对离线数据进行查询。
可选的,包括:调用第二处理引擎,从所述Kafka消息队列中读取网络质量数据;通过计划任务的方式从所述第二处理引擎中定时计算产出天级或者小时级的离线报表数据写入关系数据库。
步骤S108:第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
第二服务器为网络诊断数据服务器,用于接收网络诊断数据。
可选的,所述第二服务器接收第二类数据,将所述第二类数据存入存储服务器,包括:
网络诊断数据服务器以二进制加密的形式接收诊断数据;所述网络诊断数据服务器将所述二进制加密的所述诊断数据存入对象存储服务器,同时将所述诊断数据的元信息存入关系型数据库MySQL。
可选的,如图1所示,该数据处理方法还包括:接收用户发出的数据查询指令,并从缓存区获取查询结果;若获取到所述查询结果,则将所述查询结果返回客户端;若未获取到所述查询结果,则根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询。
数据查询在数据查询层执行,数据查询层为为带缓存设计的web应用,前端与用户提供交互,后端在接收到请求后尝试去缓存中获取查询结果,如果有则立刻返回给用户。如果没有命中缓存,再根据请求的类型,分别去对应的存储引擎获取数据,更新缓存,最后返回给用户。
其中,缓存可以为内存或者Redis集群,缓存的key为对URLquery string排序后的整个请求URL。如果URL太长,则对URL进行哈希,用哈希后的结果作为key。缓存的数据可根据需求设置不同的过期时间(TTL)。
如果未命中缓存,则根据查询的类型不同进行如下操作。如果查询的是网络质量数据的明细,则通过ElasticSearch的DSL API去访问ElasticSearch。如果是查询的是网络质量聚合数据,则去请求Druid。如果查询的是网络诊断数据,则先从MySQL中查询诊断数据的元信息,获得加密过的诊断数据在对象存储服务的存储地址,然后去对象存储服务获得诊断数据,解密后,返回给用户。
其中,web应用的后端提供Restful的API接口可供用户使用脚本或者代码执行查询,不用完全依赖前端。
本公开通过提供一种网络数据处理方法,本公开的数据传输层可以有效的解决网络数据的收集问题,通过把数量较多,单个数据较少的网络质量数据和数量较少,单个数据较大的网络诊断数据通过不同的上报通道传输,实现了安全,有效的数据采集。本公开的数据处理层,通过使用Kafka和Flink来对原始数据进行一次或者多次的清洗和整形,能根据实际拥有的计算资源和计算引擎能力,灵活的调整数据量,调整数据形态。本公开的数据存储层采用了不同的存储引擎来适应不同的查询场景,通过Druid提供了实时的聚合数据的查询,通过ElasticSearch提供了明细数据的查询和全文检索,通过Hive提供了归档的原始数据的查询,通过MySQL提供了离线的天级报表的查询。本公开的数据查询层为带有缓存的web应用,用户通过网页前端或者Rest API能方便有效的执行不同类型的查询而不用关心具体实现。
实施例2
如图1所示,为本公开实施例的一种应用场景图,该应用场景为客户端向服务端发送数据,服务端对数据进行采样、筛选、整形等操作后存储到相应的区域,用户通过调用相应的数据获取数据服务。其中,所述数据可以为网络数据,也可以为处理业务埋点的数据。为了说明方便,本实施例以网络数据为例进行描述。本实施例承接实施例1,用于实现如实施例1所述的方法步骤,基于相同的名称含义的解释与实施例1相同,具有与实施例1相同的技术效果,此处不再赘述。
如图1所示,网络数据分析系统由四部分组成。数据传输层,数据处理层,数据存储层,数据查询层。数据传输层的作用是将客户端的网络质量数据和网络诊断数据安全,高效的发送至服务端。数据处理层的作用是对原始数据进行初步的筛选过滤,选取感兴趣的部分,剔除异常数据,对数据格式整形以方便后续操作。数据存储层的作用是摄入清洗之后的原始数据,根据不同的需求存入不同的存储引擎,对于不同类型的数据可以设置不同的持久化周期。数据查询层的作用是接收终端用户的查询请求,根据需求去缓存或者不同的存储引擎找到最匹配的结果,实时或近似实时的返回给用户。
如图3所示,根据本公开的具体实施方式,第二方面,本公开提供一种数据处理装置,应用于服务端,包括第一存储单元302、第一调用单元304、第二调用单元306以及第二存储单元308,具体如下:
第一存储单元302,用于第一服务器接收第一类数据,将所述第一类数据存入Kafka消息队列。
可选的,第一存储单元302还用于:
第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列,或
第一服务器接收加密的文本形式的质量数据;将所述加密的文本形式的质量数据解密后存入Kafka消息队列。
第一调用单元304,用于调用第一处理引擎,从所述Kafka消息队列中读取所述第一类数据,对所述第一类数据处理后分别写入聚合查询分析引擎和明细查询分析引擎。
所述第一调用单元304,还用于:
调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据;将所述质量数据进行预聚合处理后写入聚合查询分析引擎;将所述质量数据清洗后写入明细查询分析引擎。
第二调用单元306,用于调用第二处理引擎,从所述Kafka消息队列中读取所述第一类数据,将所述第一类数据存入关系数据库。
所述第二调用单元306还用于,调用第二处理引擎,从所述Kafka消息队列中读取质量数据;通过计划任务的方式从所述第二处理引擎中定时计算产出天级或者小时级的离线报表数据写入关系数据库。
第二存储单元308,用于第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
第二存储单元308还用于:
第二服务器以二进制加密的形式接收诊断数据;所述第二服务器将所述二进制加密的所述诊断数据存入对象存储服务器,同时将所述诊断数据的元信息存入关系型数据库。
数据处理装置还包括:
查询单元310,用于接收查询指令,并从缓存区获取查询结果;若获取到所述查询结果,则将所述查询结果返回客户端;若未获取到所述查询结果,则根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询。
具体的,查询单元310用于:
查询指令请求查询的是质量数据的明细,则到明细查询分析引擎进行查询,和/或
查询指令请求查询的是质量聚合数据,则到聚合查询分析引擎进行查询,和/或
查询指令请求查询的是诊断数据,则先从关系数据库中查询所述诊断数据的元信息,获得加密的所述诊断数据在对象存储服务器的存储地址,然后从所述对象存储服务器获得所述诊断数据。
本公开通过提供一种网络数据处理装置,本公开的数据传输层可以有效的解决网络数据的收集问题,通过把数量较多,单个数据较少的网络质量数据和数量较少,单个数据较大的网络诊断数据通过不同的上报通道传输,实现了安全,有效的数据采集。本公开的数据处理层,通过使用Kafka和Flink来对原始数据进行一次或者多次的清洗和整形,能根据实际拥有的计算资源和计算引擎能力,灵活的调整数据量,调整数据形态。本公开的数据存储层采用了不同的存储引擎来适应不同的查询场景,通过Druid提供了实时的聚合数据的查询,通过ElasticSearch提供了明细数据的查询和全文检索,通过Hive提供了归档的原始数据的查询,通过MySQL提供了离线的天级报表的查询。本公开的数据查询层为带有缓存的web应用,用户通过网页前端或者Rest API能方便有效的执行不同类型的查询而不用关心具体实现。
实施例3
如图4所示,本实施例提供一种电子设备,该设备用于数据处理,所述电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上实施例所述的方法步骤。
实施例4
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
实施例5
下面参考图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口404也连接至总线404。
通常,以下装置可以连接至I/O接口404:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置404;包括例如磁带、硬盘等的存储装置408;以及通信装置404。通信装置404可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置404从上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。

Claims (9)

1.一种数据处理方法,应用于服务端,其特征在于,包括:
第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列;
调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据,对所述质量数据处理后分别写入聚合查询分析引擎和明细查询分析引擎;
调用第二处理引擎,从所述Kafka消息队列中读取所述质量数据,通过计划任务的方式从所述第二处理引擎中定时计算产出天级或者小时级的离线报表数据写入关系数据库;
第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
2.如权利要求1所述的方法,其特征在于,所述第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列,包括:
第一服务器接收加密的文本形式的质量数据;
将所述加密的文本形式的质量数据解密后存入Kafka消息队列。
3.如权利要求2所述的方法,其特征在于,所述调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据,对所述质量数据处理后分别写入聚合查询分析引擎和明细查询分析引擎,包括:
调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据;
将所述质量数据进行预聚合处理后写入聚合查询分析引擎;
将所述质量数据清洗后写入明细查询分析引擎。
4.如权利要求1所述的方法,其特征在于,所述第二服务器接收第二类数据,将所述第二类数据存入存储服务器,包括:
第二服务器以二进制加密的形式接收诊断数据;
所述第二服务器将所述二进制加密的所述诊断数据存入对象存储服务器,同时将所述诊断数据的元信息存入关系型数据库。
5.如权利要求4所述的方法,其特征在于,还包括:
接收查询指令,并从缓存区获取查询结果;
若获取到所述查询结果,则将所述查询结果返回客户端;
若未获取到所述查询结果,则根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询。
6.如权利要求5所述的方法,其特征在于,所述根据所述查询指令请求查询的数据类型,到所述聚合查询分析引擎、明细查询分析引擎、关系数据库或对象存储服务器查询,包括:
查询指令请求查询的是质量数据的明细,则到明细查询分析引擎进行查询,和/或
查询指令请求查询的是质量聚合数据,则到聚合查询分析引擎进行查询,和/或
查询指令请求查询的是诊断数据,则先从关系数据库中查询所述诊断数据的元信息,获得加密的所述诊断数据在对象存储服务器的存储地址,然后从所述对象存储服务器获得所述诊断数据。
7.一种数据处理装置,应用于服务端,其特征在于,包括:
第一存储单元,用于第一服务器接收文本形式的质量数据,将所述质量数据存入Kafka消息队列;
第一调用单元,用于调用第一处理引擎,从所述Kafka消息队列中读取所述质量数据,对所述质量数据处理后分别写入聚合查询分析引擎和明细查询分析引擎;
第二调用单元,用于调用第二处理引擎,从所述Kafka消息队列中读取所述质量数据,通过计划任务的方式从所述第二处理引擎中定时计算产出天级或者小时级的离线报表数据写入关系数据库;
第二存储单元,用于第二服务器接收第二类数据,将所述第二类数据存入存储服务器。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
CN201910339253.4A 2019-04-25 2019-04-25 一种数据处理方法、装置、介质和电子设备 Active CN110147398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339253.4A CN110147398B (zh) 2019-04-25 2019-04-25 一种数据处理方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339253.4A CN110147398B (zh) 2019-04-25 2019-04-25 一种数据处理方法、装置、介质和电子设备

Publications (2)

Publication Number Publication Date
CN110147398A CN110147398A (zh) 2019-08-20
CN110147398B true CN110147398B (zh) 2020-05-15

Family

ID=67594565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339253.4A Active CN110147398B (zh) 2019-04-25 2019-04-25 一种数据处理方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN110147398B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825731B (zh) * 2019-09-18 2023-10-24 平安科技(深圳)有限公司 数据存储方法、装置、电子设备及存储介质
CN110647512B (zh) * 2019-09-29 2022-05-24 北京思维造物信息科技股份有限公司 一种数据存储和分析方法、装置、设备和可读介质
CN111046099A (zh) * 2019-11-12 2020-04-21 上海麦克风文化传媒有限公司 一种热数据高性能存储架构
CN111078723B (zh) * 2019-11-29 2021-08-13 支付宝(杭州)信息技术有限公司 一种区块链浏览器的数据处理方法及装置
CN111124299A (zh) * 2019-12-17 2020-05-08 网易传媒科技(北京)有限公司 数据存储管理方法、装置、设备、系统及存储介质
CN111159135A (zh) * 2019-12-23 2020-05-15 五八有限公司 数据处理方法、装置、电子设备及存储介质
CN111258978B (zh) * 2020-01-17 2024-04-19 广东小天才科技有限公司 一种数据存储的方法
CN113326142B (zh) * 2020-02-28 2024-06-18 北京沃东天骏信息技术有限公司 一种消息处理的方法及装置
CN111506475A (zh) * 2020-04-15 2020-08-07 北京字节跳动网络技术有限公司 数据处理方法、装置、系统、可读介质及电子设备
CN113568761B (zh) * 2020-04-28 2023-06-27 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质
CN111581157B (zh) * 2020-05-07 2023-06-23 广州市百果园信息技术有限公司 一种对象存储平台以及对象操作方法、装置和服务器
CN111651510A (zh) * 2020-05-14 2020-09-11 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111611308A (zh) * 2020-06-11 2020-09-01 上海乾臻信息科技有限公司 信息处理方法、装置及系统
CN113779137B (zh) * 2020-06-29 2024-10-18 北京沃东天骏信息技术有限公司 一种数据归档的方法和装置
CN112287007B (zh) * 2020-10-30 2022-02-11 常州微亿智造科技有限公司 基于Flink SQL引擎的工业生产数据实时处理方法、系统
CN112417244A (zh) * 2020-11-18 2021-02-26 厦门物之联智能科技有限公司 一种物联大数据采集处理系统
CN112529632B (zh) * 2020-12-17 2024-04-23 深圳市欢太科技有限公司 基于流式引擎的计费方法、装置、系统、介质与设备
CN112506960B (zh) * 2020-12-17 2024-03-19 青岛以萨数据技术有限公司 基于ArangoDB引擎的多模型数据存储方法及系统
CN113760570A (zh) * 2021-01-07 2021-12-07 北京沃东天骏信息技术有限公司 数据处理方法、装置、电子设备、系统和存储介质
CN112948455A (zh) * 2021-01-08 2021-06-11 四川新网银行股份有限公司 一种基于Apache Druid的实时分析计算方法
CN113051313B (zh) * 2021-03-25 2023-07-25 北京百度网讯科技有限公司 信息聚合方法、装置、电子设备、存储介质和程序产品
CN113553327B (zh) * 2021-07-06 2024-08-23 杭州网易云音乐科技有限公司 数据处理方法和装置、介质和计算设备
CN113407587B (zh) * 2021-07-19 2023-10-27 北京百度网讯科技有限公司 用于联机分析处理引擎的数据处理方法、装置、设备
CN113849421B (zh) * 2021-09-16 2023-11-17 苏州浪潮智能科技有限公司 全闪存储中数据的分级聚合方法和装置
CN113872802B (zh) * 2021-09-17 2024-01-19 支付宝(杭州)信息技术有限公司 检测网元的方法和装置
CN114185998A (zh) * 2021-11-02 2022-03-15 北京达佳互联信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN116132540B (zh) * 2023-04-13 2023-08-01 北京东大正保科技有限公司 一种多业务系统数据处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197807A (zh) * 2006-12-13 2008-06-11 四川川大智胜软件股份有限公司 智能通信服务器
CN101400037A (zh) * 2008-11-06 2009-04-01 北京华瑞网研科技有限公司 同名并行服务系统及方法
CN102243610A (zh) * 2011-08-09 2011-11-16 广东省电力调度中心 操作系统测试方法及测试系统
US8396894B2 (en) * 2010-11-05 2013-03-12 Apple Inc. Integrated repository of structured and unstructured data
CN105025317A (zh) * 2015-06-04 2015-11-04 钱治安 一种校园传媒管理方法
CN107750441A (zh) * 2015-01-26 2018-03-02 卢森堡商创研腾智权信托有限公司 安全动态通讯网络及协定

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945034B (zh) * 2009-07-08 2014-12-31 中兴通讯股份有限公司 一种身份标识与位置分离协议数据转发系统及方法
US20120158655A1 (en) * 2010-12-20 2012-06-21 Microsoft Corporation Non-relational function-based data publication for relational data
CN106649687B (zh) * 2016-12-16 2023-11-21 飞狐信息技术(天津)有限公司 大数据联机分析处理方法及装置
CN108446363B (zh) * 2018-03-13 2021-05-25 北京奇安信科技有限公司 一种kv引擎的数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197807A (zh) * 2006-12-13 2008-06-11 四川川大智胜软件股份有限公司 智能通信服务器
CN101400037A (zh) * 2008-11-06 2009-04-01 北京华瑞网研科技有限公司 同名并行服务系统及方法
US8396894B2 (en) * 2010-11-05 2013-03-12 Apple Inc. Integrated repository of structured and unstructured data
CN102243610A (zh) * 2011-08-09 2011-11-16 广东省电力调度中心 操作系统测试方法及测试系统
CN107750441A (zh) * 2015-01-26 2018-03-02 卢森堡商创研腾智权信托有限公司 安全动态通讯网络及协定
CN105025317A (zh) * 2015-06-04 2015-11-04 钱治安 一种校园传媒管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
简单实时计算方案(kafka+flink+druid/es);sxiaobei;《https://blog.csdn.net/sxiaobei/article/details/80788378?utm_source=blogxgwz2》;20180624;正文第1-2页 *

Also Published As

Publication number Publication date
CN110147398A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147398B (zh) 一种数据处理方法、装置、介质和电子设备
US10560465B2 (en) Real time anomaly detection for data streams
US20160092493A1 (en) Executing map-reduce jobs with named data
CN113254466B (zh) 一种数据处理方法、装置、电子设备和存储介质
US20150237113A1 (en) Method and system for file transmission
CN110262807B (zh) 集群创建进度日志采集系统、方法和装置
CN111258978B (zh) 一种数据存储的方法
CN103095819A (zh) 推送数据信息的方法及数据信息推送系统
WO2018156983A1 (en) Managing publish-subscribe channels in an open data ecosystem
CN111782692B (zh) 一种频率控制方法及装置
CN109063196A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
US20180248977A1 (en) Selective distribution of messages in a publish-subscribe system
US20190005534A1 (en) Providing media assets to subscribers of a messaging system
WO2018156980A1 (en) Managing intelligent microservices in a data streaming ecosystem
WO2018213199A1 (en) System and method for testing message filters in publish-subscribe networks
CN107729394A (zh) 基于Hadoop集群的数据集市管理系统及其使用方法
CN108959041B (zh) 信息发送的方法、服务器及计算机可读存储介质
CN110730251B (zh) 一种解析域名的方法、装置、介质和电子设备
CN113742555A (zh) 热点侦测方法、装置、侦测服务器、热点侦测系统及介质
CN112817874A (zh) 一种用户界面的测试方法、装置、设备及介质
CN112749204A (zh) 一种读取数据的方法和装置
CN117692672B (zh) 基于快照的视频信息发送方法、装置、电子设备和介质
CN112783716B (zh) 一种监控方法和装置
CN113778909B (zh) 一种缓存数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.