CN118041917A - 跨区域数据交互方法及其相关设备 - Google Patents

跨区域数据交互方法及其相关设备 Download PDF

Info

Publication number
CN118041917A
CN118041917A CN202410232824.5A CN202410232824A CN118041917A CN 118041917 A CN118041917 A CN 118041917A CN 202410232824 A CN202410232824 A CN 202410232824A CN 118041917 A CN118041917 A CN 118041917A
Authority
CN
China
Prior art keywords
data
task
kafka cluster
api component
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410232824.5A
Other languages
English (en)
Inventor
谢明珠
李冰
陈乐�
林锋
陈卓
王冀彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202410232824.5A priority Critical patent/CN118041917A/zh
Publication of CN118041917A publication Critical patent/CN118041917A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种跨区域数据交互方法及其相关设备,涉及大数据处理技术领域,该方法包括:从第一API组件中获取任务;其中,任务由第二API组件发起,第二API组件将任务发送给第三API组件,第三API组件将任务发送给第一API组件,第一API组件在第一区域,第二API组件在第二区域,第三API组件在第三区域;对所述任务进行处理,得到处理结果;将所述处理结果发送给第一Kafka集群;其中,第一Kafka集群(在第一区域)将处理结果发送给第三Kafka集群(在第三区域),第三Kafka集群将处理结果发送给第二Kafka集群(在第二区域)。在本申请中,提高了数据利用率。

Description

跨区域数据交互方法及其相关设备
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种跨区域数据交互方法及其相关设备。
背景技术
大数据的应用与交互主要在本区域或本应用系统场景下实现,即将在A区域的系统生产计算的应用结果关联的数据,通过网络直连传输给B系统进行应用,其传输方式主要是离线的批传输或者通过网关的实时查询。
但是,将在A区域的系统生产计算的应用结果关联的数据,通过网络直连传输给B系统进行应用的方式,其独立系统之间只进行一次数据交互,使得数据的共享能力较差,从而导致数据的利用率较低。
发明内容
本申请的主要目的在于提供一种跨区域数据交互方法及其相关设备,旨在解决数据的利用率较低的问题。
为实现上述目的,本申请提供一种跨区域数据交互方法,应用于第一区域的Flink组件,所述跨区域数据交互方法包括以下步骤:
从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
对所述任务进行处理,得到处理结果;
将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
可选地,所述将所述处理结果发送给第一Kafka集群的步骤之后,包括:
从目标Kafka集群中获取数据;其中,所述数据由flume组件采集,所述flume组件将所述数据发送给目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域,所述数据包括XDR数据和/或者数据模型中开始时间和当前时间的时间差值,以及固定时间段内的数据量和实时数据;
对所述数据进行计算,得到计算结果;
将所述计算结果发送给监控系统和/或者存入hdfs系统;其中,所述监控系统和/或者所述hdfs系统通过所述计算结果对所述数据进行监控。
可选地,若所述数据为XDR数据和/或者数据模型中开始时间和当前时间的时间差值,所述对所述数据进行计算,得到计算结果的步骤,包括:
确定大于预设时延的目标时间差值,并确定所述目标时间差值关联的延迟数据;
计算所述延迟数据的波动量,得到所述目标时间差值关联的数据波动量;
所述将所述计算结果发送给监控系统或存入hdfs系统的步骤,包括:
将所述数据波动量发送给监控系统;其中,所述监控系统通过所述数据波动量监控波动情况。
可选地,若所述数据为固定时间段内的数据量和实时数据,所述对所述数据进行计算,得到计算结果的步骤,包括:
对所述数据量进行计算,得到固定时间段内所述数据量的同比和环比波动情况;
对所述实时数据进行计算,得到实时数据模型;
所述将所述计算结果发送给监控系统或存入hdfs系统的步骤,包括:
将所述实时数据模型存入hdfs系统;其中,所述hdfs系统对所述实时数据模型与离线数据模型进行一致性比对并得到比对结果,所述离线数据模型是所述hdfs系统从离线通道中获取得到的。
可选地,所述从第一API组件中获取任务的步骤之前,包括:
从目标Kafka集群中获取实时数据;其中,所述实时数据由flume组件采集,所述flume组件将所述实时数据发送给所述目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域;
对所述实时数据进行计算,得到基础实时模型;
将所述基础实时模型发送给所述第一Kafka集群;其中,所述第一Kafka集群将所述基础实时模型存储至相应Topic消息队列;
所述对所述任务进行处理,得到处理结果的步骤,包括:
根据所述任务的任务需求,从所述Topic消息队列中获取目标基础实时模型;
根据所述目标基础实时模型,对所述任务进行关联计算,得到满足所述任务需求的计算结果。
可选地,所述从第一API组件中获取任务的步骤,包括:
从第一API组件中获取任务和所述任务关联的任务需求;其中,所述任务由第二API组件根据限定条件发起,所述第二API组件将所述任务和所述任务需求发送给第三API组件,所述第三API组件将所述任务和所述任务需求发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
所述对所述任务进行处理,得到处理结果的步骤,包括:
根据所述任务需求,对所述任务进行处理,得到处理结果。
此外,为实现上述目的,本申请还提供一种跨区域数据交互装置,所述跨区域数据交互装置包括:
获取模块,用于从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
处理模块,用于对所述任务进行处理,得到处理结果;
发送模块,用于将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
此外,为实现上述目的,本申请还提供一种跨区域数据交互设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨区域数据交互程序,所述跨区域数据交互程序配置为实现所述的跨区域数据交互方法的步骤。
此外,为实现上述目的,本申请还提供一种存储介质,所述存储介质上存储有跨区域数据交互程序,所述跨区域数据交互程序被处理器执行时实现所述的跨区域数据交互方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括跨区域数据交互程序,所述跨区域数据交互程序被处理器执行时实现所述的跨区域数据交互方法的步骤。
本申请提供了一种跨区域数据交互方法及其相关设备,与相关技术中将在A区域的系统生产计算的应用结果关联的数据,通过网络直连传输给B系统进行应用的方式,其独立系统之间只进行一次数据交互,使得数据的共享能力较差,从而导致数据的利用率较低相比,在本申请中,应用于第一区域的Flink组件,从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;对所述任务进行处理,得到处理结果;将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。可以理解,在本申请中,第一区域的Flink组件获取第二区域的第二API组件发起的任务,再对获取到的任务进行处理并得到处理结果,再将处理结果发送至第二区域的第二Kafka集群,通过跨区域的多次数据交互,提升了数据的共享能力,从而提高了数据利用率。
附图说明
图1为本申请跨区域数据交互方法第一实施例的第一流程示意图;
图2为本申请跨区域数据交互方法第一实施例的第一场景示意图;
图3为本申请跨区域数据交互方法第二实施例的第二流程示意图;
图4为本申请跨区域数据交互方法第二实施例的第二场景示意图;
图5为本申请跨区域数据交互方法第三实施例的第三流程示意图;
图6为本申请跨区域数据交互方法第三实施例的第三场景示意图;
图7为本申请跨区域数据交互装置的结构框图;
图8为本申请实施例方案涉及的硬件运行环境的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,图1为本申请跨区域数据交互方法第一实施例的第一流程示意图。
在第一实施例中,所述跨区域数据交互方法包括以下步骤:
步骤S10,从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
步骤S20,对所述任务进行处理,得到处理结果;
步骤S30,将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
本实施例旨在:在第二区域的第二API组件创建任务后,第一区域的Flink组件按任务需求对该任务进行计算,各区域中的Kafka集群对计算结果进行共享传输,以通过跨区域的多次数据交互,提升数据的共享能力,从而提高数据利用率。
以下阐述具体的步骤:
步骤S10,从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
需要说明的是,本实施例的执行主体为跨区域数据交互装置,所述跨区域数据交互装置可以是从属于Flink组件,所述Flink组件可以是从属于跨区域数据交互设备。
可以理解的是,所述第一区域、所述第二区域与所述第三区域之间相互独立,所述第一区域包括Flink组件、第一API组件和第一Kafka集群,所述第二区域包括第二API组件和第二Kafka集群,所述第三区域包括第三API组件和第三Kafka集群。
在具体实施中,所述第二API组件用于发起任务,并将发起的任务发送给第三API组件;所述第三API组件用于接收第二API组件发送的任务,并将任务发送给第一API组件;所述第一API组件用于接收任务;所述Flink组件上设置有所述跨区域数据交互装置,所述跨区域数据交互装置用于从第一API组件中获取任务,对任务进行处理并得到处理结果,以及将处理结果发送给第一Kafka集群;所述第一Kafka集群用于将处理结果发送给第三Kafka集群;所述第三Kafka集群用于接收处理结果,并将处理结果发送给第二Kafka集群;所述第二Kafka集群用于接收处理结果。
需要说明的是,所述Flink组件(Apache Flink,开源流处理框架),其核心是用Java和Scala编写的分布式流数据流引擎,所述Flink组件以数据并行和流水线方式执行任意流数据程序,所述Flink组件的流水线运行时系统可以执行批处理和流处理程序。
需要说明的是,所述API(Application Programming Interface,应用程序编程接口)是指一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
需要说明的是,所述Kafka集群是指开源流处理平台,由Scala和Java编写,所述Kafka集群是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。所述Kafka集群的目的是通过Hadoop(分布式系统基础架构)的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
具体地,所述步骤S10,还包括步骤S11:
步骤S11,从第一API组件中获取任务和所述任务关联的任务需求;其中,所述任务由第二API组件根据限定条件发起,所述第二API组件将所述任务和所述任务需求发送给第三API组件,所述第三API组件将所述任务和所述任务需求发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
可以理解的是,所述第二API组件根据用户预设的限定条件(如精准营销限定特定用户群体、限定特定位置区域范围、限定特定的用户访问内容等条件),发起有限定条件的实时计算任务,并根据这些任务生成任务id;第二API组件将任务id发送给第三API组件,第三API组件将任务id发送给第一API组件,所述跨区域数据交互装置从第一API组件中获取任务id。
在具体实施中,所述跨区域数据交互装置根据所述任务需求,对所述任务进行处理,得到处理结果。
在具体实施中,在从第一API组件中获取任务之后,所述跨区域数据交互装置通知用户建立所述第一API组件、所述第二API组件和所述第三API组件之间的互联互通,以及所述第一Kafka集群、所述第二Kafka集群和所述第三Kafka集群之间的互联互通。
需要说明的是,所述互联互通是指电信网间的物理连接,以使一个电信运营企业的用户能够与另一个电信运营企业的用户相互通信,或者能够享用另一个电信运营企业提供的各种电信业务。
在具体实施中,所述第一区域、所述第二区域和所述第三区域通过所述第一API组件、所述第二API组件和所述第三API组件之间的互联互通,以及所述第一Kafka集群、所述第二Kafka集群和所述第三Kafka集群之间的互联互通建立链接。
步骤S20,对所述任务进行处理,得到处理结果;
需要说明的是,所述跨区域数据交互装置获取到任务后,根据任务关联的任务需求,对任务关联的数据进行计算,得到计算结果(处理结果)。
在具体实施中,在从第一API组件中获取到任务id后,所述跨区域数据交互装置对任务id关联的数据进行实时计算,并筛选出符合任务id关联的任务需求的计算结果,以生成相应的Topic数据。
步骤S30,将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
在具体实施中,所述跨区域数据交互装置将满足任务id范围的Topic数据发送给第一Kafka集群,并通过各个Kafka集群之间的互联互通将Topic数据消费至应用端(应用端Kafka集群),以完成实时数据的交付。
在本实施例中,参照图2,第二区域(数据应用区)的第二API组件创建或查询任务TASK,第三区域(数据共享区)的第三API组件通过API网关传输任务至第一区域(数据能力集中建设区)的第一API组件(API接口能力)后,Flink组件上的所述跨区域数据交互装置从第一API组件中获取任务;所述跨区域数据交互装置对任务进行处理,得到处理结果(Topic数据);所述跨区域数据交互装置将处理结果(Topic数据)发送给第一Kafka集群(Kafka集中建设集群),第三Kafka集群(Kafka共享集群)传输处理结果(Topic数据)至第二Kafka集群(应用端Kafka集群)。
在本实施例中,与相关技术中将在A区域的系统生产计算的应用结果关联的数据,通过网络直连传输给B系统进行应用的方式,其独立系统之间只进行一次数据交互,使得数据的共享能力较差,从而导致数据的利用率较低相比,在本实施例中,应用于第一区域的Flink组件,从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;对所述任务进行处理,得到处理结果;将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。即在本实施例中,第一区域的Flink组件获取第二区域的第二API组件发起的任务,再对获取到的任务进行处理并得到处理结果,再将处理结果发送至第二区域的第二Kafka集群,通过跨区域的多次数据交互,提升了数据的共享能力,从而提高了数据利用率。
进一步地,参照图3,基于上述实施例,提供本申请的第二实施例,在本实施例中,所述步骤S30之后,所述跨区域数据交互方法还包括以下步骤:
步骤S31,从目标Kafka集群中获取数据;其中,所述数据由flume组件采集,所述flume组件将所述数据发送给目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域,所述数据包括XDR数据和/或者数据模型中开始时间和当前时间的时间差值,以及固定时间段内的数据量和实时数据;
需要说明的是,所述flume组件是指一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,所述flume组件支持在日志系统中定制各类数据发送方,用于收集数据。
可以理解的是,所述flume组件进行全网实时数据采集,并将实时数据消费到目标Kafka集群。
步骤S32,对所述数据进行计算,得到计算结果;
需要说明的是,若所述数据为XDR数据和/或者数据模型中开始时间和当前时间的时间差值、固定时间段内的数据量和实时数据;所述跨区域数据交互装置对获取到的数据进行计算,得到相应的计算结果(流数据量超出预设时延要求的数据波动量,固定时间段内数据量的同比和环比波动情况,以及实时数据模型)。
具体地,若所述数据为XDR数据和/或者数据模型中开始时间和当前时间的时间差值,所述步骤S32,还包括步骤B1-B2:
步骤B1,确定大于预设时延的目标时间差值,并确定所述目标时间差值关联的延迟数据;
需要说明的是,所述XDR是指外部数据表示法(External Data Representation,缩写为XDR),XDR允许把数据包装在独立于介质的结构中使得数据可以在异构的计算机系统中传输;所述数据模型是指数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。
步骤B2,计算所述延迟数据的波动量,得到所述目标时间差值关联的数据波动量;
需要说明的是,所述跨区域数据交互装置计算延迟数据的波动量,得到与目标时间差值关联的数据波动量。
具体地,若所述数据为固定时间段内的数据量和实时数据,所述步骤S32,还包括步骤C1-C2:
步骤C1,对所述数据量进行计算,得到固定时间段内所述数据量的同比和环比波动情况;
需要说明的是,所述同比一般情况下是指本年第n月与过去某年的第n月比,用以说明本期发展水平与同期发展水平对比而达到的相对发展速度,在实际工作中,经常使用这个指标,如某一小时与同期对比计算的发展速度,就是同比发展速度;所述环比是指是表示连续2个统计周期(比如连续两小时)内的量的变化比。
步骤C2,对所述实时数据进行计算,得到实时数据模型;
在具体实施中,所述跨区域数据交互装置对实时数据进行计算,得到实时数据模型。
步骤S33,将所述计算结果发送给监控系统和/或者存入hdfs系统;其中,所述监控系统和/或者所述hdfs系统通过所述计算结果对所述数据进行监控。
需要说明的是,所述监控系统用于监控延迟数据的波动情况,所述hdfs用于监控数据量的同比和环比波动情况,以及实时数据和离线数据量的差异。
具体地,若所述计算结果为目标时间差值关联的数据波动量,所述步骤S33,还包括步骤B3:
步骤B3,将所述数据波动量发送给监控系统;其中,所述监控系统通过所述数据波动量监控波动情况。
在具体实施中,所述监控系统通过数据波动量监控波动情况。
具体地,若所述计算结果为数据量的同比和环比波动情况,以及实时数据模型,所述步骤S33,还包括步骤C3:
步骤C3,将所述实时数据模型存入hdfs系统;其中,所述hdfs系统对所述实时数据模型与离线数据模型进行一致性比对并得到比对结果,所述离线数据模型是所述hdfs系统从离线通道中获取得到的。
在具体实施中,所述hdfs系统对实时数据模型与离线数据模型进行一致性比对,得到比对结果。
在本实施例中,参照图4,省网络口采集平台用于监控集团日志网关平台和实现源数据采集,其监控参数包括O域位置2/4/5g源数据和O域内容2/4/5g源数据(数据范围),以及数据量、数据延迟和关键字段填充率(监控点);集团日志网关平台用于监控大数据各资源池生产域和实现源数据透传/共享,其监控参数包括O域位置2/4/5g源数据和O域内容2/4/5g源数据(数据范围),以及数据量和数据延迟,如数据积压和数据波动(监控点)。
在本实施例中,与相关技术中只对实时数据进行监控,并通过其变化趋势确定数据的准确性,在实时数据出现趋势不明显的异常变化的情况下,数据的准确性将会受到很大影响相比,在本实施例中,从目标Kafka集群中获取数据;其中,所述数据由flume组件采集,所述flume组件将所述数据发送给目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域,所述数据包括XDR数据和/或者数据模型中开始时间和当前时间的时间差值,以及固定时间段内的数据量和实时数据;对所述数据进行计算,得到计算结果;将所述计算结果发送给监控系统和/或者存入hdfs系统;其中,所述监控系统和/或者所述hdfs系统通过所述计算结果对所述数据进行监控。即在本实施例中,获取XDR数据和/或者数据模型中开始时间和当前时间的时间差值,或者固定时间段内的数据量和实时数据,并对获取到的数据进行计算,得到相应计算结果,再将计算结果发送给监控系统和/或者存入hdfs系统,以供监控系统和/或者hdfs系统通过计算结果对数据延迟和数据一致性进行监控,从而保障数据准确性。
进一步地,参照图5,基于上述实施例,提供本申请的第三实施例,在本实施例中,所述步骤S10之前,所述跨区域数据交互方法还包括以下步骤:
步骤S01,从目标Kafka集群中获取实时数据;其中,所述实时数据由flume组件采集,所述flume组件将所述实时数据发送给所述目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域;
在具体实施中,所述跨区域数据交互装置从目标Kafka集群中获取flume组件采集的实时数据。
步骤S02,对所述实时数据进行计算,得到基础实时模型;
在具体实施中,所述跨区域数据交互装置进行常见的ETL、全局聚合以及Window聚合等方式的实时计算,生成基础层实时模型数据,并完成基础层通用的实时能力模型加工,以得到基础实时模型。
例如,参照图6,所述跨区域数据交互装置得到《特定用户画像实时位置表》,表格中包括中文描述(如归属省、手机号码和手机imsi等)及相应的字段名称(如G_Province,msisdn和imsi等)。
步骤S03,将所述基础实时模型发送给所述第一Kafka集群;其中,所述第一Kafka集群将所述基础实时模型存储至相应Topic消息队列;
需要说明的是,所述第一Kafka集群包括多个不同的Topic消息队列。
具体地,所述对所述任务进行处理,得到处理结果的步骤,包括:
步骤S04,根据所述任务的任务需求,从所述Topic消息队列中获取目标基础实时模型;
在具体实施中,所述跨区域数据交互装置根据任务需求,从Topic消息队列中获取相应的目标基础实时模型。
步骤S05,根据所述目标基础实时模型,对所述任务进行关联计算,得到满足所述任务需求的计算结果。
例如,所述跨区域数据交互装置获取到满足任务id要求范围的任务同《特定用户画像实时位置表》topic数据进行关联计算,得到计算结果。
在本实施例中,与相关技术中只对任务进行处理和分析,容易产生与实际情况脱轨的情况,从而导致处理结果精准度较低相比,在本实施例中,从目标Kafka集群中获取实时数据;其中,所述实时数据由flume组件采集,所述flume组件将所述实时数据发送给所述目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域;对所述实时数据进行计算,得到基础实时模型;将所述基础实时模型发送给所述第一Kafka集群;其中,所述第一Kafka集群将所述基础实时模型存储至相应Topic消息队列;根据所述任务的任务需求,从所述Topic消息队列中获取目标基础实时模型;根据所述目标基础实时模型,对所述任务进行关联计算,得到满足所述任务需求的计算结果。即在本实施例中,获取实时数据,并根据实时数据计算得到基础实时模型,再将基础实时模型存储至第一Kafka集群中的Topic消息队列,再根据任务需求从Topic消息队列中获取目标基础实时模型,并根据目标基础实时模型,对任务进行关联计算并得到计算结果,以基础实时模型与任务相结合的方式,使得处理结果与实际情况更贴切,从而提高处理结果的精准度。
此外,本申请实施例还提出一种跨区域数据交互装置,参照图7,所述跨区域数据交互装置包括:
获取模块10,用于从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
处理模块20,用于对所述任务进行处理,得到处理结果;
发送模块30,用于将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
可选地,所述跨区域数据交互装置,还包括:
数据采集模块,用于从目标Kafka集群中获取数据;其中,所述数据由flume组件采集,所述flume组件将所述数据发送给目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域,所述数据包括XDR数据和/或者数据模型中开始时间和当前时间的时间差值,以及固定时间段内的数据量和实时数据;
计算模块,用于对所述数据进行计算,得到计算结果;
结果发送模块,用于将所述计算结果发送给监控系统和/或者存入hdfs系统;其中,所述监控系统和/或者所述hdfs系统通过所述计算结果对所述数据进行监控。
可选地,所述计算模块,还包括:
延迟数据计算单元,用于确定大于预设时延的目标时间差值,并确定所述目标时间差值关联的延迟数据;
波动量计算单元,用于计算所述延迟数据的波动量,得到所述目标时间差值关联的数据波动量;
可选地,所述结果发送模块,还包括:
波动量发送单元,用于将所述数据波动量发送给监控系统;其中,所述监控系统通过所述数据波动量监控波动情况。
可选地,所述计算模块,还包括:
波动情况计算单元,用于对所述数据量进行计算,得到固定时间段内所述数据量的同比和环比波动情况;
模型计算单元,用于对所述实时数据进行计算,得到实时数据模型;
可选地,所述结果发送模块,还包括:
结果发送单元,用于将所述实时数据模型存入hdfs系统;其中,所述hdfs系统对所述实时数据模型与离线数据模型进行一致性比对并得到比对结果,所述离线数据模型是所述hdfs系统从离线通道中获取得到的。
可选地,所述跨区域数据交互装置,还包括:
实时采集模块,用于从目标Kafka集群中获取实时数据;其中,所述实时数据由flume组件采集,所述flume组件将所述实时数据发送给所述目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域;
模型生成模块,用于对所述实时数据进行计算,得到基础实时模型;
模型发送模块,用于将所述基础实时模型发送给所述第一Kafka集群;其中,所述第一Kafka集群将所述基础实时模型存储至相应Topic消息队列;
可选地,所述处理模块,还包括:
模型处理单元,用于根据所述任务的任务需求,从所述Topic消息队列中获取目标基础实时模型;
关联处理单元,用于根据所述目标基础实时模型,对所述任务进行关联计算,得到满足所述任务需求的计算结果。
可选地,所述获取模块,还包括:
任务获取单元,用于从第一API组件中获取任务和所述任务关联的任务需求;其中,所述任务由第二API组件根据限定条件发起,所述第二API组件将所述任务和所述任务需求发送给第三API组件,所述第三API组件将所述任务和所述任务需求发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
可选地,所述处理模块,还包括:
任务处理单元,用于根据所述任务需求,对所述任务进行处理,得到处理结果。
在本实施例中,应用于第一区域的Flink组件,从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;对所述任务进行处理,得到处理结果;将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。即在本实施例中,第一区域的Flink组件获取第二区域的第二API组件发起的任务,再对获取到的任务进行处理并得到处理结果,再将处理结果发送至第二区域的第二Kafka集群,通过跨区域的多次数据交互,提升了数据的共享能力,从而提高了数据利用率。
本申请跨区域数据交互装置的具体实施方式与上述跨区域数据交互方法各实施例基本相同,在此不再赘述。
参照图8,图8为本申请实施例方案涉及的硬件运行环境的跨区域数据交互设备结构示意图。
如图8所示,该跨区域数据交互设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图8中示出的结构并不构成对跨区域数据交互设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及跨区域数据交互程序。
其中,操作系统是管理和控制跨区域数据交互设备与软件资源的程序,支持网络通信模块、用户接口模块、跨区域数据交互程序以及其他程序或软件的运行,网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图8所示的跨区域数据交互设备中,所述跨区域数据交互设备通过处理器1001调用存储器1005中存储的跨区域数据交互程序,实现上述任一项所述的跨区域数据交互方法的步骤。
本申请跨区域数据交互设备具体实施方式与上述跨区域数据交互方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种存储介质,本申请实施例提供了一种存储介质,且所述存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的跨区域数据交互方法的步骤。
本申请存储介质具体实施方式与上述跨区域数据交互方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机程序产品,包括跨区域数据交互程序,所述跨区域数据交互程序被处理器执行时实现如上所述的跨区域数据交互方法的步骤。
本发明计算机程序产品具体实施方式与上述跨区域数据交互方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种跨区域数据交互方法,其特征在于,应用于第一区域的Flink组件,所述跨区域数据交互方法包括以下步骤:
从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
对所述任务进行处理,得到处理结果;
将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
2.如权利要求1所述的跨区域数据交互方法,其特征在于,所述将所述处理结果发送给第一Kafka集群的步骤之后,包括:
从目标Kafka集群中获取数据;其中,所述数据由flume组件采集,所述flume组件将所述数据发送给目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域,所述数据包括XDR数据和/或者数据模型中开始时间和当前时间的时间差值,以及固定时间段内的数据量和实时数据;
对所述数据进行计算,得到计算结果;
将所述计算结果发送给监控系统和/或者存入hdfs系统;其中,所述监控系统和/或者所述hdfs系统通过所述计算结果对所述数据进行监控。
3.如权利要求2所述的跨区域数据交互方法,其特征在于,若所述数据为XDR数据和/或者数据模型中开始时间和当前时间的时间差值,所述对所述数据进行计算,得到计算结果的步骤,包括:
确定大于预设时延的目标时间差值,并确定所述目标时间差值关联的延迟数据;
计算所述延迟数据的波动量,得到所述目标时间差值关联的数据波动量;
所述将所述计算结果发送给监控系统或存入hdfs系统的步骤,包括:
将所述数据波动量发送给监控系统;其中,所述监控系统通过所述数据波动量监控波动情况。
4.如权利要求2所述的跨区域数据交互方法,其特征在于,若所述数据为固定时间段内的数据量和实时数据,所述对所述数据进行计算,得到计算结果的步骤,包括:
对所述数据量进行计算,得到固定时间段内所述数据量的同比和环比波动情况;
对所述实时数据进行计算,得到实时数据模型;
所述将所述计算结果发送给监控系统或存入hdfs系统的步骤,包括:
将所述实时数据模型存入hdfs系统;其中,所述hdfs系统对所述实时数据模型与离线数据模型进行一致性比对并得到比对结果,所述离线数据模型是所述hdfs系统从离线通道中获取得到的。
5.如权利要求1~4任一项所述的跨区域数据交互方法,其特征在于,所述从第一API组件中获取任务的步骤之前,包括:
从目标Kafka集群中获取实时数据;其中,所述实时数据由flume组件采集,所述flume组件将所述实时数据发送给所述目标Kafka集群,所述flume组件和所述目标Kafka集群在所述第一区域;
对所述实时数据进行计算,得到基础实时模型;
将所述基础实时模型发送给所述第一Kafka集群;其中,所述第一Kafka集群将所述基础实时模型存储至相应Topic消息队列;
所述对所述任务进行处理,得到处理结果的步骤,包括:
根据所述任务的任务需求,从所述Topic消息队列中获取目标基础实时模型;
根据所述目标基础实时模型,对所述任务进行关联计算,得到满足所述任务需求的计算结果。
6.如权利要求1~4任一项所述的跨区域数据交互方法,其特征在于,所述从第一API组件中获取任务的步骤,包括:
从第一API组件中获取任务和所述任务关联的任务需求;其中,所述任务由第二API组件根据限定条件发起,所述第二API组件将所述任务和所述任务需求发送给第三API组件,所述第三API组件将所述任务和所述任务需求发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
所述对所述任务进行处理,得到处理结果的步骤,包括:
根据所述任务需求,对所述任务进行处理,得到处理结果。
7.一种跨区域数据交互装置,其特征在于,所述跨区域数据交互装置包括:
获取模块,用于从第一API组件中获取任务;其中,所述任务由第二API组件发起,所述第二API组件将所述任务发送给第三API组件,所述第三API组件将所述任务发送给所述第一API组件,所述第一API组件在所述第一区域,所述第二API组件在第二区域,所述第三API组件在第三区域;
处理模块,用于对所述任务进行处理,得到处理结果;
发送模块,用于将所述处理结果发送给第一Kafka集群;其中,所述第一Kafka集群将所述处理结果发送给第三Kafka集群,所述第三Kafka集群将所述处理结果发送给第二Kafka集群,所述第一Kafka集群在所述第一区域,所述第二Kafka集群在所述第二区域,所述第三Kafka集群在所述第三区域。
8.一种跨区域数据交互设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨区域数据交互程序,所述跨区域数据交互程序配置为实现如权利要求1至6中任一项所述的跨区域数据交互方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有跨区域数据交互程序,所述跨区域数据交互程序被处理器执行时实现如权利要求1至6中任一项所述的跨区域数据交互方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括跨区域数据交互程序,所述跨区域数据交互程序被处理器执行时实现如权利要求1至6中任一项所述的跨区域数据交互方法的步骤。
CN202410232824.5A 2024-02-29 2024-02-29 跨区域数据交互方法及其相关设备 Pending CN118041917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410232824.5A CN118041917A (zh) 2024-02-29 2024-02-29 跨区域数据交互方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410232824.5A CN118041917A (zh) 2024-02-29 2024-02-29 跨区域数据交互方法及其相关设备

Publications (1)

Publication Number Publication Date
CN118041917A true CN118041917A (zh) 2024-05-14

Family

ID=90994939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410232824.5A Pending CN118041917A (zh) 2024-02-29 2024-02-29 跨区域数据交互方法及其相关设备

Country Status (1)

Country Link
CN (1) CN118041917A (zh)

Similar Documents

Publication Publication Date Title
US11836533B2 (en) Automated reconfiguration of real time data stream processing
US9137130B2 (en) Dynamic network load forecasting
CN111309374B (zh) 一种微服务系统和微服务系统中的服务调用方法
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
US9208476B2 (en) Counting and resetting broadcast system badge counters
CN110990138B (zh) 资源调度方法、装置、服务器及存储介质
US7730119B2 (en) Sub-task processor distribution scheduling
CN109995669B (zh) 分布式限流方法、装置、设备及可读存储介质
US8595322B2 (en) Target subscription for a notification distribution system
WO2016115734A1 (en) Processing high volume network data
WO2013039798A2 (en) Distributing multi-source push notifications to multiple targets
CN107291744A (zh) 确定及运用应用程序之间的关系关联的方法及装置
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
CN111913784B (zh) 任务调度方法及装置、网元、存储介质
WO2018199817A1 (en) Message queue performance monitoring
CN113806177A (zh) 集群监控的方法、装置、电子设备及存储介质
US8694462B2 (en) Scale-out system to acquire event data
CN111475315A (zh) 服务器及订阅通知推送控制、执行方法
US10129084B1 (en) Centralized parameter management system
CN116192752B (zh) 业务流量控制方法、装置、电子设备及存储介质
CN115002117B (zh) 内容分发网络动态调度方法、系统、设备及存储介质
CN118041917A (zh) 跨区域数据交互方法及其相关设备
CN114610765B (zh) 流计算方法、装置、设备及存储介质
CN117692401A (zh) 消息发送方法、装置、服务器及存储介质
CN116764235A (zh) 数据处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination