CN114610728A - 一种实时处理数据的方法、装置、设备、介质及产品 - Google Patents

一种实时处理数据的方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN114610728A
CN114610728A CN202111602789.4A CN202111602789A CN114610728A CN 114610728 A CN114610728 A CN 114610728A CN 202111602789 A CN202111602789 A CN 202111602789A CN 114610728 A CN114610728 A CN 114610728A
Authority
CN
China
Prior art keywords
processing
data
data set
processed
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111602789.4A
Other languages
English (en)
Inventor
王立冬
尚涛
李黎莉
欧阳晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN202111602789.4A priority Critical patent/CN114610728A/zh
Publication of CN114610728A publication Critical patent/CN114610728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种实时处理数据的方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及大数据技术领域。该方法包括:响应于订阅的更新消息,获取至少一个原始数据集;根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;根据从动态模型、事件模型、时序模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果。该方法实现了通过实时掌握的数据动态来驱动对原始数据的处理,并且在处理过程中,采用了不同的数据模型中的处理策略来处理相关数据,即提供了多样化的数据模型和处理策略,使处理所得的结果更加丰富全面,从而为实时应用提供更丰富的实时性的数据处理结果。

Description

一种实时处理数据的方法、装置、设备、介质及产品
技术领域
本申请涉及大数据技术领域,具体而言,本申请涉及一种实时处理数据的方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
传统的大数据平台通常采用Hadoop、MPP为存储介质,其数据模型往往是精心打磨的离线数据仓库模型。基于传统的数据模型处理数据的过程,存在着获取数据延迟、处理周期长、数据加工汇总慢及缺失实时处理能力等问题,导致用户总是“滞后”才能看到所需的相关数据。
另外,在实践中发现,在每建立一个实时应用的过程中,都需要对原始的数据进行一次消费性处理,不仅容易形成一个个数据孤岛(即无法复用的数据),而且由于处理所依赖的数据模型不常更改,使得后端经营决策无法快速应对前端业务的快速变化。
因此,目前的数据处理方式无法满足当前业务发展的需求。
发明内容
本申请实施例的目的旨在能解决目前的数据处理方式无法满足当前业务发展的需求的问题。
根据本申请实施例的一个方面,提供了一种实时处理数据的方法,该方法包括:
响应于订阅的更新消息,获取至少一个原始数据集;
根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;
根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,其中,预设模型为动态模型、事件模型、时序模型中的至少一项。
在一种可能的实现方式中,响应于订阅的更新消息,获取至少一个原始数据集,包括:;
在初始化阶段,订阅对应以下数据源的更新消息:B域数据源、O域数据源、M域数据源;
响应于至少一条更新消息,获取每条更新消息对应的数据源中的原始数据集。
在一种可能的实现方式中,根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集,包括:
针对所述至少一个原始数据集中每个原始数据集执行以下操作:
预处理该原始数据集,得到临时数据集;
获取该原始数据集所配置主题的所有子主题;
根据每个子主题对应的统计模型,对该临时数据集进行处理,并将非空的处理结果确定为相应子主题对应的待处理数据集。
在一种可能的实现方式中,每个待处理数据集携带一个标识,根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,包括:
确定标识集,其中,所述标识集包括每个待处理数据集携带的标识;
根据所述标识集从所述预设模型中筛选出至少一项处理策略,其中,每项处理策略关联至少一个标识;
根据所述至少一项处理策略中每项处理策略关联的标识,从所有的待处理数据集中分别确定出与每项处理策略相关联的至少一个待处理数据集,并按照相应的处理策略进行处理,得到相应的处理结果。
在一种可能的实现方式中,在按照相应的处理策略进行处理之前,还包括:
若确定出的至少一个待处理数据集不包括相应处理策略关联的所有待处理数据集,从订阅的数据源中获取新的原始数据集,以补充其他待处理数据集,其中,其他待处理数据集为相应处理策略关联的所有待处理数据集中除确定出的至少一个待处理数据集之外的待处理数据集。
在一种可能的实现方式中,该方法还包括;
根据每项处理策略所属的数据模型所配置的存储模式,存储相应的处理结果。
在一种可能的实现方式中,该方法还包括:
响应于第一更新指令,更新数据库中的目标主题和/或目标子主题;
响应于第二更新指令,更新数据库中的目标处理策略。
根据本申请实施例的另一个方面,提供了一种实时处理数据的装置,该装置包括:
获取模块,用于响应于订阅的更新消息,获取至少一个原始数据集;
第一处理模块,用于根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;
第二处理模块,用于根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,其中,预设模型为动态模型、事件模型、时序模型中的至少一项。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:
包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请一个方面所示的实时处理数据的方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本申请一个方面所示的实时处理数据的方法的步骤。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请一个方面所示的实时处理数据的方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请提供了一种实时处理数据的方法,具体地:根据实时掌握的数据动态(例如,订阅的更新消息),获取原始数据;再根据原始数据所携带的标识(例如,表的主题)对原始数据做预处理,得到可以进一步处理的待处理数据;最后根据从预设模型中筛选出的处理策略,进一步处理该待处理数据集,得到处理结果。其中,该预设模型为动态模型、事件模型、时序模型中的至少一项。该方法实现了通过实时掌握的数据动态来驱动对原始数据的处理,并且在处理过程中,采用了不同的数据模型中的处理策略来处理相关数据,即提供了多样化的数据模型和处理策略,使处理所得的结果更加丰富全面,从而为实时应用提供更丰富的实时性的数据的处理结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种二层实时模型架构的原理示意图;
图2为本申请实施例提供的一种实时处理数据的方法的流程示意图;
图3为本申请实施例提供的一种实时处理数据的装置的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
电信行业的三大数据域:第一个,B域,business support system的数据域,B域有用户数据和业务数据,例如用户的消费习惯、终端信息、业务内容、业务受众人群等,主要是建设一些业务支撑系统,用来保障电信运营商能够正常支撑他的业务。第二个,O域,operation support system的数据域,O域有网络数据,例如信令、告警、故障、网络资源等,主要是对网络侧的信令、开通指令、网络资源设备的管理、资源使用情况等相关的业务支撑系统的建设。第三个,M域,management support system的数据域,M域有财务信息,比如市场份额、营业收入、资产开支、净利润、EVA等,主要是建设一些管理支撑系统,比如合同管理、报账平台、预算管理等系统建设。从三大数据域进行数据分析和挖掘,就是电信行业的大数据应用,比如地理化精准营销、成本精算等。
ETL:Extract-Transform-Load,一种数据仓库技术。ETL通常用于将业务系统(例如,上述B域、M域、O域)的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
当今世界,信息化、数字化、智能化成为鲜明的时代特征,数字经济成为经济高质量发展的重要支撑。尤其是5G时代的来临,电信产业迎来数据的爆炸性增长,而且互联网业务对于传统电信业的冲击,以及电信业务同质化日趋严重,驱使运营商不得不改变现有的业务模式。
而随着大数据应用的深入,实时化、场景化成为很多企业运营的新常态,这个要求越来越多地出现在各个领域,许多场景(如:位置类场景、通话类场景、上网行为场景)都需要快速、实时的洞察分析与决策。
而传统的数据处理的方式,一般采用ODS-DM-APP的处理流程。该方式无论是数据处理能力还是事后分析的需求响应机制,已经无法满足现有业务需求,尤其是无法满足对于原始数据的处理需求。
因此,本申请提供的一种实时处理数据的方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。其中,该方法可以应用于系统中,该系统对接上述B域、O域、M域;该系统中提供了多个应用,其中部分应用可直接获取经过实时处理数据的方法处理所得的结果。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
参见图1,本申请实施例提供了一种二层实时模型架构的原理示意图。在该图中,该架构中主要包括2个模型层:流式模型层和计算模型层。
在接收到订阅的更新消息之后,从B域、O域、M域中获取原始数据。在流式模型层之前,有针对获取的原始数据进行预处理的过程。该处理过程和现有技术中ETL处理过程类似,或者说可以在该环节直接采用ETL来对原始数据进行预处理。经过预处理之后,得到临时数据。
流式模型层接收该临时数据,并进行相应的处理。例如,从B域获取的原始数据,经过预处理后,可以得到多个不同主题的待处理的表,由于B域主要是用户数据和业务数据,待处理的表的主题可以为以下任一项:客户、产商品、订单、渠道、政企等。其中,“客户”作为一级主题,其下面有多个二级主题,每个二级主题代表一种统计模型,根据统计模型,对配置了一级主题的待处理的表进行处理。例如,“客户”作为一级主题,所包括的二级主题可以是以下任一项:“客户-区域类”,针对该主题,可以将临时数据表按照客户的区域进行统计汇总,得到“客户-武汉”、“客户-襄阳”等待处理的表。“客户”下面可以有“客户-性别类”、“客户-年龄类”等。
例如,从O域获取的原始数据,经过预处理后,可以得到多个不同主题的待处理的表,由于O域主要是网络数据,可以将网络数据中携带的接口标识作为主题,因此,待处理的表的主题可以为以下任一项:S1-MME、S1-U、空口、X2、Uu、S11、S6a(均为接口标识,其中,空口定义了终端设备与网络设备之间的接口)等。同样的,上述主题的标识是一级主题,每个一级主题下有多个二级主题。例如,“空口”包括的二级主题可以是以下任一项:“用户基站位置”、“用户区域位置”等。
例如,从M域获取的原始数据,经过预处理后,可以得到多个不同主题的待处理的表,由于M域主要财务信息,比如市场份额、营业收入、资产开支、净利润、EVA等,待处理的表的主题可以为以下任一项:财务、绩效、人力等。同样的,上述主题的标识是一级主题,每个一级主题下有至少一个二级主题。
应当指出,关于一级主题和二级主题的定义方式,本申请实施例仅提出一些示例,这些示例并非限制本申请所保护的范围。本领域技术人员在具体实施本方案时,可根据需求在相关数据域自行拓展一级主题或者二级主题,或者还可以在二级主题下拓展三级主题等。
计算模型层对接业务层,具体如业务层的各类应用等。在该模型层中,根据不同的实时场景定义了3种不同的数据模型:动态模型、事件模型、时序模型。其中,动态模型,适合做实时汇总统计,例如:订单统计、业务办理等,支持SQL对实时获取的数据做离线操作,动态模型的数据存储的位置可以为kafka、Hbase;事件模型,把实时获取的数据抽象成一系列事件,即按照事件特性进行模型的设计,例如:营销事件、位置事件、上网事件、办理事件,按照营销事件的特性处理实时获取的数据,该模型的数据可以存储在MQ、Redis中;时序模型,主要实时收集的在不同时间、不同来源的数据,然后根据不同的应用场景将时序的对象按照时间顺序排列起来,实现用户基于时间窗口对齐下的数据结果输出。可以结合序数据库或者列存储方式进行(如:TSDB、HBase中),存储结构为时间+用户ID+信令类型。
其中,动态模型中,其实质存储的是多种不同的数据处理策略,例如,业务办理1统计的是套餐1的办理的实时情况,业务办理2统计的是套餐2的办理的实时情况。应当指出,该套餐1和5G套餐2可以是运营商提供所有套餐中任一种。
此外,在具体使用的时候,通过为不同的处理策略提供API(即接口)标识,以便于系统的业务层(主要是应用)进行调用。
示例性地,以实时位置类场景进行说明。在流式模型层中,可以对O域的原始数据进行预处理后,基于按接口来源以多维模型方式进行数据统计和存储。例如:基于用户位置实时增量模型,对空口信令数据的部分字段进行裁剪,以保留核心字段;并对信令数据进行字段命名归一化处理,清洗信令数据中不合格的数据。之后,进行基于“空口“下的二级模型域(如:用户基站位置、用户区域位置等)内的数据整合、相关业务的拆分、汇总。在计算模型层中,可以对基于对上述处理后的信令数据,并结合其它经过流式模型层处理后的数据进行进一步的关联及策略处理,以生成基于时序模型、事件模型及动态表模型的实时处理结果,以供业务层进行调用。业务层基于提供的实时处理结果可以开展以下业务,例如:如提供的实时处理结果可以为某风景区当前实时客户监控,相关应用可以实时景区客流监控;提供的实时处理结果可以为某地区旅游局对进入景区的人员(剔除本地人员),相关应用发送过境欢迎短信并介绍景区特征;提供的实时处理结果为在某大型商圈驻或者高铁站留时长30分钟以上的用户,相关应用可以在商圈、高铁站进行实时营销推送;提供的实时处理结果为疫情期间用户的活动轨迹,相关应用可以实施轨迹跟踪。
参见图2,本申请实施例提供了一种实时处理数据的方法的流程示意图,该方法包括:
S210,响应于订阅的更新消息,获取至少一个原始数据集。
其中,在初始化阶段,系统对以下数据源进行更新消息的订阅操作:B域数据源、O域数据源、M域数据源。在订阅消息之后,以上任一数据源中有数据更新,则发送更新消息,系统接收到之后,就根据该更新消息携带的数据源的信息,去获取相应数据源中的原始数据。其中,在获取原始数据时,是按照表这个单位去获取的,该表中包括至少一条数据。
S220,根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集。
其中,在针对每个原始数据集进行处理之后,得到的待处理数据集的总数和原始数据集的总数相等。
S230,根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,其中,预设模型为动态模型、事件模型、时序模型中的至少一项。
本申请提供了一种实时处理数据的方法,具体地:根据实时掌握的数据动态(例如,订阅的更新消息),获取原始数据;再根据原始数据所携带的标识(例如,表的主题)对原始数据做预处理,得到可以进一步处理的待处理数据;最后根据从预设模型中筛选出的处理策略,进一步处理该待处理数据集,得到处理结果。其中,该预设模型为动态模型、事件模型、时序模型中的至少一项。该方法实现了通过实时掌握的数据动态来驱动对原始数据的处理,并且在处理过程中,采用了不同的数据模型中的处理策略来处理相关数据,即提供了多样化的数据模型和处理策略,使处理所得的结果更加丰富全面,从而为实时应用提供更丰富的实时性的数据处理结果。
本申请实施例还提供了一种可能的实现方式,S220具体可以包括S221-S223(图中未示出):
针对至少一个原始数据集中每个原始数据集执行以下操作:
S221,预处理该原始数据集,得到临时数据集;
其中,在预处理该原始数据集时,可以参考现有技术中ETL,对原始数据进行格式转换、数据清洗、脱敏、信息补齐等操作。或者说可以在预处理环节直接采用ETL来对原始数据进行处理。
示例性地,若获取的原始数据表(对应原始数据集)的预设数据形式为json格式,但是获取的原始数据表是一条序列化数据,则对该原始数据表进行序列化转换,将其转换为json格式的原始数据表。在获取到json格式的原始数据表之后,对其进行补齐操作,在进行补齐操作时,可以结合数据库中存储的数据来对每一条数据进行信息补齐,例如,若该原始数据表的主题为客户,那么原始数据表中每一条数据都应该包括:客户标识、客户名称、客户性别、客户年龄、客户账号、客户当前使用套餐,缺少上述任一个信息,则进行弥补。对原始数据表进行数据清洗处理,该数据清洗处理包括删除掉原始数据表中重复的数据,也包括对原始数据中有明显问题的数据进行剔除,例如:一条数据中年龄处的值为:200(单位:岁)。遍历原始数据表,筛选出需要进行保密处理的数据,以进行相应的加密处理,该操作即为数据脱敏操作。应当指出,对原始数据表进行的预处理操作的具体操作和操作的执行顺序,本申请实施例仅提供一个示例来说明预处理的过程,其并不对本申请的保护范围形成限制。
S222,获取该原始数据集所配置主题的所有子主题;
其中,原始数据集配置的主题可以作为一级主题,该一级主题可配置有多个二级主题或者三级主题等。以二级主题为例,每个二级主题对应一种统计模型,各个统计模型对临时数据的处理方式不同。
S223,根据每个子主题对应的统计模型,对该临时数据集进行处理,并将非空的处理结果确定为相应子主题对应的待处理数据集。
其中,每个待处理数据集携带一个标识,每个标识都是唯一的。
示例性地,一级主题为“客户”,二级主题可以为:“客户-区域类”、“客户-年龄类”、“客户性别类”等。其中,基于“客户-区域”对应的统计模型在对临时数据集进行处理的过程包括:分别统计武汉、襄阳、黄冈、荆州等区域的客户,并将统计不为空结果配置上相应的标识,该标识可以为“客户-武汉”、“客户-襄阳”、“客户-黄冈”、“客户-荆州”等。应当指出,作为标识的也可以是数字、字母等组成的字符串。本申请实施例还提供了一种可能的实现方式,根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,具体可以包括S231-S233(图中均未示出):
S231确定标识集,其中,该标识集包括每个待处理数据集携带的标识;
具体地,在经过S220的处理之后,得到多个待处理数据集,获取每个待处理数据集的标识,汇聚成标识集。
接上述示例,该标识可以为“客户-武汉”、“客户-襄阳”、“客户-黄冈”等。
S232,根据标识集从预设模型中筛选出至少一项处理策略,其中,每项处理策略关联至少一个标识;
其中,上述三种数据模型中,每个数据模型包括至少一项处理策略,每项处理策略关联至少一个标识。实质上,这表示一个处理策略关联多个不同标识的待处理数据集。
具体地,依次对每项处理策略执行以下操作:确定当前处理策略关联的所有的标识,若该所有的标识中至少一个存在于该标识集中,确定当前处理策略为筛选出的处理策略。
依据上述处理过程,确定出至少一项处理策略。
S233,根据至少一项处理策略中每项处理策略关联的标识,从所有的待处理数据集中分别确定出与每项处理策略相关联的至少一个待处理数据集,并按照相应的处理策略进行处理,得到相应的处理结果。
具体地,由于一个标识实质上对应一个待处理数据集,可通过筛选标识的方式来获取确定出的与每项处理策略关联的待处理数据集。在确定至少一项处理策略后,针对确定出的每项处理策略执行以下操作:根据该项处理策略关联的所有的标识,确定该标识集中是否存在该所有的标识中任一个,若存在,则从该标识集中筛选出所有存在的标识(其个数范围为:大于或者等于一,即至少一个),然后根据标识确定对应的待处理数据集,即确定出与该项处理策略相关联的至少一个待处理数据集。
若确定出的已存在的待处理数据集只是该项处理策略的部分待处理数据集,那么该项处理策略不能继续执行。
因此,本申请实施例还提供了一种可能的实现方式,在按照相应的处理策略进行处理之前,还可以包括:
若确定出的至少一个待处理数据集不包括相应处理策略关联的所有待处理数据集,从订阅的数据源中获取新的原始数据集,以补充其他待处理数据集,其中,其他待处理数据集为相应处理策略关联的所有待处理数据集中除确定出的至少一个待处理数据集之外的待处理数据集。
其中,在获取新的原始数据集之后,按照S220的步骤处理该新的原始数据集,得到新的待处理数据集,该新的待处理数据集即为其他待处理数据集。
在一种可能的实现方式中,在S233步骤中,得到确定出的每项处理策略的处理结果之后,根据每项处理策略所属的数据模型配置相应的存储模式,并存储相应的处理结果。
示例性地,针对动态模型中的订单统计1和订单统计2可以采取kafka进行存储,针对事件模型中的营销事件和位置事件可以采取Redis进行存储。
为了突破业务瓶颈,运营商还可以根据实时数据推出各种新的业务模型,而新的业务模型则需要相应的数据模型的支撑。因此,本申请实施例还提供了一种可能的实现方式,接收更新指令,对预设模型中的处理策略或者每个主题的子主题进行更新。其中,数据库中存储着所有的主题和相应的子主题,以及预设模型中所有的处理策略。
具体地,响应于第一更新指令,更新数据库中的目标主题和/或目标子主题,其中,更新操作包括以下至少一项:
在目标主题中增加/删除子主题;
增加目标主题,以及相应的子主题;
删除目标主题,以及相应的子主题。
具体地,响应于第二更新指令,更新数据库中的目标处理策略,其中,更新操作包括以下至少一项:
更新目标处理策略的数据处理方式;
删除目标处理策略;
在预设模型中新增目标处理策略。
通过不断的更新处理策略和主题,来不断提供新的数据模型,从而适应不同场景下的业务需求。
本申请实施例还提供了一种可能的实现方式,还包括:
响应于业务层输入的获取指令,向业务层反馈处理结果,其中,获取指令中携带有处理策略,反馈的处理结果与携带的处理策略相对应。
具体地,系统可以对每项处理策略进行编号,或者处理成不同的接口标识,业务层在输入获取指令时,携带目标处理策略的编号或者接口标识,以获取相应的处理结果。
参见图3,本申请实施例还提供了一种实时处理数据的装置,该装置300包括:获取模块310、第一处理模块320、第二处理模块330,其中,
获取模块310,用于响应于订阅的更新消息,获取至少一个原始数据集;
第一处理模块320,用于根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;
第二处理模块330,用于根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果,其中,预设模型为动态模型、事件模型、时序模型中的至少一项。
在一种可能的实现方式中,响应于订阅的更新消息,获取至少一个原始数据集,包括:
在初始化阶段,订阅对应以下数据源的更新消息:B域数据源、O域数据源、M域数据源;
响应于至少一条更新消息,获取每条更新消息对应的数据源中的原始数据集。
在一种可能的实现方式中,第一处理模块320在根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集中,具体用于:
针对所述至少一个原始数据集中每个原始数据集执行以下操作:
预处理该原始数据集,得到临时数据集;
获取该原始数据集所配置主题的所有子主题;
根据每个子主题对应的统计模型,对该临时数据集进行处理,并将非空的处理结果确定为相应子主题对应的待处理数据集。
在一种可能的实现方式中,每个待处理数据集携带一个标识,第二处理模块330在根据从预设模型中筛选出的处理策略,处理待处理数据集,得到相应的处理结果中,具体用于:
确定标识集,其中,所述标识集包括每个待处理数据集携带的标识;
根据所述标识集从所述预设模型中筛选出至少一项处理策略,其中,每项处理策略关联至少一个标识;
根据所述至少一项处理策略中每项处理策略关联的标识,从所有的待处理数据集中分别确定出与每项处理策略相关联的至少一个待处理数据集,并按照相应的处理策略进行处理,得到相应的处理结果。
在一种可能的实现方式中,第二处理模块330在按照相应的处理策略进行处理之前,还可以用于:
若确定出的至少一个待处理数据集不包括相应处理策略关联的所有待处理数据集,从订阅的数据源中获取新的原始数据集,以补充其他待处理数据集,其中,其他待处理数据集为相应处理策略关联的所有待处理数据集中除确定出的至少一个待处理数据集之外的待处理数据集。
在一种可能的实现方式中,第二处理模块330还可以用于:
根据每项处理策略所属的数据模型所配置的存储模式,存储相应的处理结果。
在一种可能的实现方式中,装置300还包括更新模块340,更新模块340具体用于:
响应于第一更新指令,更新数据库中的目标主题和/或目标子主题。
响应于第二更新指令,更新数据库中的目标处理策略。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (11)

1.一种实时处理数据的方法,其特征在于,包括:
响应于订阅的更新消息,获取至少一个原始数据集;
根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;
根据从预设模型中筛选出的处理策略,处理所述待处理数据集,得到相应的处理结果,其中,所述预设模型为动态模型、事件模型、时序模型中的至少一项。
2.根据权利要求1所述的方法,其特征在于,所述响应于订阅的更新消息,获取至少一个原始数据集,包括:
在初始化阶段,订阅对应以下数据源的更新消息:B域数据源、O域数据源、M域数据源;
响应于至少一条更新消息,获取每条更新消息对应的数据源中的原始数据集。
3.根据权利要求1所述的方法,其特征在于,根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集,包括:
针对所述至少一个原始数据集中每个原始数据集执行以下操作:
预处理该原始数据集,得到临时数据集;
获取该原始数据集所配置主题的所有子主题;
根据每个子主题对应的统计模型,对该临时数据集进行处理,并将非空的处理结果确定为相应子主题对应的待处理数据集。
4.根据权利要求1所述的方法,其特征在于,每个待处理数据集携带一个标识,所述根据从预设模型中筛选出的处理策略,处理所述待处理数据集,得到相应的处理结果,包括:
确定标识集,其中,所述标识集包括每个待处理数据集携带的标识;
根据所述标识集从所述预设模型中筛选出至少一项处理策略,其中,每项处理策略关联至少一个标识;
根据所述至少一项处理策略中每项处理策略关联的标识,从所有的待处理数据集中分别确定出与每项处理策略相关联的至少一个待处理数据集,并按照相应的处理策略进行处理,得到相应的处理结果。
5.根据权利要求4所述的方法,其特征在于,在按照相应的处理策略进行处理之前,还包括:
若确定出的至少一个待处理数据集不包括相应处理策略关联的所有待处理数据集,从订阅的数据源中获取新的原始数据集,以补充其他待处理数据集,其中,所述其他待处理数据集为所述相应处理策略关联的所有待处理数据集中除所述确定出的至少一个待处理数据集之外的待处理数据集。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
根据每项处理策略所属的数据模型所配置的存储模式,存储相应的处理结果。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
响应于第一更新指令,更新数据库中的目标主题和/或目标子主题;
响应于第二更新指令,更新所述数据库中的目标处理策略。
8.一种实时处理数据的装置,其特征在于,包括:
获取模块,用于响应于订阅的更新消息,获取至少一个原始数据集;
第一处理模块,用于根据每个原始数据集配置的主题处理相应的原始数据集,得到相应的待处理数据集;
第二处理模块,用于根据从预设模型中筛选出的处理策略,处理所述待处理数据集,得到相应的处理结果,其中,所述预设模型为动态模型、事件模型、时序模型中的至少一项。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202111602789.4A 2021-12-24 2021-12-24 一种实时处理数据的方法、装置、设备、介质及产品 Pending CN114610728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111602789.4A CN114610728A (zh) 2021-12-24 2021-12-24 一种实时处理数据的方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602789.4A CN114610728A (zh) 2021-12-24 2021-12-24 一种实时处理数据的方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN114610728A true CN114610728A (zh) 2022-06-10

Family

ID=81858139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602789.4A Pending CN114610728A (zh) 2021-12-24 2021-12-24 一种实时处理数据的方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN114610728A (zh)

Similar Documents

Publication Publication Date Title
CN102902752B (zh) 一种日志监控方法及系统
CN102314460A (zh) 数据分析方法、系统及服务器
CN112396462B (zh) 基于Clickhouse的人群圈选方法及装置
US20090083221A1 (en) System and Method for Estimating and Storing Skills for Reuse
CN112287195A (zh) 新闻媒体处理方法及系统、计算机存储介质、处理器
CN114356692A (zh) 一种应用监控链路的可视化处理方法、装置及存储介质
CN116205396A (zh) 一种基于数据中台的数据全景监控方法及系统
US11568344B2 (en) Systems and methods for automated pattern detection in service tickets
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN114385609A (zh) 基于标签的政务事件处理系统、方法、设备及存储介质
CN109145092B (zh) 一种数据库更新、智能问答管理方法、装置及其设备
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
US11657063B2 (en) Behavioral analytics in information technology infrasturcture incident management systems
CN114610728A (zh) 一种实时处理数据的方法、装置、设备、介质及产品
CN116167587A (zh) 一种自动化分配客服方法及存储系统
CN115423361A (zh) 风险视图的数据处理方法、装置、存储介质和设备
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN111144091B (zh) 客服成员的确定方法、装置以及群成员身份的确定方法
US10915295B2 (en) Automated generation of audio daily activity overview powered by a database
CN113407527A (zh) 一种权限数据的采集方法、管理装置以及存储介质
US20150100515A1 (en) Customer data unification
US20060253426A1 (en) Identifying duplicate entries in a historical database
CN111127077A (zh) 一种基于流计算的推荐方法和装置
Tripathi et al. Taming Tsunami of data by principles of inventory management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination