CN117234694B - 基于seda线程调度的数据治理方法及系统 - Google Patents

基于seda线程调度的数据治理方法及系统 Download PDF

Info

Publication number
CN117234694B
CN117234694B CN202311500858.XA CN202311500858A CN117234694B CN 117234694 B CN117234694 B CN 117234694B CN 202311500858 A CN202311500858 A CN 202311500858A CN 117234694 B CN117234694 B CN 117234694B
Authority
CN
China
Prior art keywords
data
thread
governance
data management
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311500858.XA
Other languages
English (en)
Other versions
CN117234694A (zh
Inventor
钟奇
李超
郭富
李亚超
吴双笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhongchangkangda Information Technology Co ltd
Original Assignee
Guangzhou Zhongchangkangda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhongchangkangda Information Technology Co ltd filed Critical Guangzhou Zhongchangkangda Information Technology Co ltd
Priority to CN202311500858.XA priority Critical patent/CN117234694B/zh
Publication of CN117234694A publication Critical patent/CN117234694A/zh
Application granted granted Critical
Publication of CN117234694B publication Critical patent/CN117234694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SEDA线程调度的数据治理方法及系统,该方法包括:建立基于SEDA架构的包括有多个阶段的数据治理架构;每一所述阶段对应于一个数据治理层;创建每一所述阶段对应的数据接收线程;当任一所述数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。可见,本发明能够实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。

Description

基于SEDA线程调度的数据治理方法及系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于SEDA线程调度的数据治理方法及系统。
背景技术
大数据技术的发展使得越来越多的数据并发处理技术被应用在各行各业中,此时,数据治理技术的介入显得额外重要,其可以有效对大数据进行梳理,提高后续数据分析或计算的效率。
但现有技术在实现数据治理时,没有有效结合SEDA技术架构和其中的技术特点对数据治理的调度进行优化,因此显然现有技术实现的数据治理技术的治理效率和治理效果有所欠缺。可见,现有技术存在缺陷,亟需解决。
发明内容
本发明所要解决的技术问题在于,提供一种基于SEDA线程调度的数据治理方法及系统,能够实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。
为了解决上述技术问题,本发明第一方面公开了一种基于SEDA线程调度的数据治理方法,所述方法包括:
建立基于SEDA架构的包括有多个阶段的数据治理架构;每一所述阶段对应于一个数据治理层;
创建每一所述阶段对应的数据接收线程;
当任一所述数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;
根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
作为一种可选的实施方式,在本发明第一方面中,所述数据治理层包括ODS层、DW层和DM层中的至少一种。
作为一种可选的实施方式,在本发明第一方面中,所述数据接收线程为状态标志扫描线程;所述状态标志扫描线程在扫描到目标状态标志为第一标志时,识别为接收到数据治理数据;所述状态标志扫描线程在扫描到所述目标状态标志为第二标志时,识别为未接收到数据治理数据。
作为一种可选的实施方式,在本发明第一方面中,所述多个阶段包括多个相互之间成顺序的阶段;所述方法还包括:
在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,确定该数据治理线程对应的所述阶段所属的阶段类型;
当所述阶段类型为非最后阶段时,将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态,并销毁所述数据治理线程。
作为一种可选的实施方式,在本发明第一方面中,在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述方法还包括:
将该数据治理线程对应的所述目标状态标志更新为第二标志;
以及,所述将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态,包括:
将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程对应的所述目标状态标志更新为第一标志。
作为一种可选的实施方式,在本发明第一方面中,每一所述阶段对应的所述数据治理层对应于一个数据容器;在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述方法还包括:
将处理后的所述数据治理数据,储存至该数据治理线程对应的所述阶段对应的所述数据治理层对应的所述数据容器中。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理,包括:
确定所述数据治理线程对应的所述数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一所述候选数据治理规则对应的多个历史处理结果数据;
在所述历史数据库中获取所述数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程所接收过的多个历史接收数据;
计算每一所述候选数据治理规则对应的多个历史处理结果数据与所述多个历史接收数据之间的数据相似度;
将所述数据相似度最高的所述候选数据治理规则,确定为目标数据治理规则;
根据所述目标数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
本发明第二方面公开了一种基于SEDA线程调度的数据治理系统,所述系统包括:
建立模块,用于建立基于SEDA架构的包括有多个阶段的数据治理架构;每一所述阶段对应于一个数据治理层;
第一创建模块,用于创建每一所述阶段对应的数据接收线程;
第二创建模块,用于当任一所述数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;
处理模块,用于根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
作为一种可选的实施方式,在本发明第二方面中,所述数据治理层包括ODS层、DW层和DM层中的至少一种。
作为一种可选的实施方式,在本发明第二方面中,所述数据接收线程为状态标志扫描线程;所述状态标志扫描线程在扫描到目标状态标志为第一标志时,识别为接收到数据治理数据;所述状态标志扫描线程在扫描到所述目标状态标志为第二标志时,识别为未接收到数据治理数据。
作为一种可选的实施方式,在本发明第二方面中,所述多个阶段包括多个相互之间成顺序的阶段;所述装置还包括更新模块,用于执行以下操作:
在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,确定该数据治理线程对应的所述阶段所属的阶段类型;
当所述阶段类型为非最后阶段时,将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态,并销毁所述数据治理线程。
作为一种可选的实施方式,在本发明第二方面中,在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述更新模块还执行以下操作:
将该数据治理线程对应的所述目标状态标志更新为第二标志;
以及,所述更新模块将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态的具体方式,包括:
将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程对应的所述目标状态标志更新为第一标志。
作为一种可选的实施方式,在本发明第二方面中,每一所述阶段对应的所述数据治理层对应于一个数据容器;在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述处理模块还执行以下操作:
将处理后的所述数据治理数据,储存至该数据治理线程对应的所述阶段对应的所述数据治理层对应的所述数据容器中。
作为一种可选的实施方式,在本发明第二方面中,所述处理模块根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理的具体方式,包括:
确定所述数据治理线程对应的所述数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一所述候选数据治理规则对应的多个历史处理结果数据;
在所述历史数据库中获取所述数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程所接收过的多个历史接收数据;
计算每一所述候选数据治理规则对应的多个历史处理结果数据与所述多个历史接收数据之间的数据相似度;
将所述数据相似度最高的所述候选数据治理规则,确定为目标数据治理规则;
根据所述目标数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
本发明第三方面公开了另一种基于SEDA线程调度的数据治理系统,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于SEDA线程调度的数据治理方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于SEDA线程调度的数据治理方法中的部分或全部步骤。
与现有技术相比,本发明具有以下有益效果:
本发明能够利用SEDA架构的数据治理架构建立不同数据治理层和不同阶段之间的对应关系,并在接收到数据根据对应的数据治理规则进行治理,从而能够实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于SEDA线程调度的数据治理方法的流程示意图;
图2是本发明实施例公开的一种基于SEDA线程调度的数据治理系统的结构示意图;
图3是本发明实施例公开的另一种基于SEDA线程调度的数据治理系统的结构示意图;
图4是本发明实施例公开的一种基于SEDA线程调度的数据治理方法的具体实施流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于SEDA线程调度的数据治理方法及系统,能够利用SEDA架构的数据治理架构建立不同数据治理层和不同阶段之间的对应关系,并在接收到数据根据对应的数据治理规则进行治理,从而能够实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于SEDA线程调度的数据治理方法的流程示意图。其中,图1所描述的方法可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定如图1所示,该基于SEDA线程调度的数据治理方法可以包括以下操作:
101、建立基于SEDA架构的包括有多个阶段的数据治理架构。
具体的,SEDA(Staged Event Driven Architecture)是一种阶段性事件驱动的服务器应用程序架构。SEDA架构能对有穷状态机(FSM)进行分析,并将相关状态聚集在同一阶段也即Stage中,Stage间采用队列的方式来进行通信。每一个Stage皆完全独立,均拥有自己的线程池,以及为了专门处理到达这一步骤所必须进行的工作。所有的Stage均通过自身事件队列连接在一起,构成完整的请求处理网络。其中每一个Stage由下述四部分组成:
(1)事件队列:用以维持Stage间之通信。
(2)事件处理器:用以执行请求到这一个Stage中所应执行的工作。
(3)线程池:用以提供事件处理器且可以并发执行事件处理之环境。
(4)性能控制器:用以对该Stage资源(线程数、队列长度等等)进行调整。
具体的,每一阶段对应于一个数据治理层。可选的,数据治理层包括ODS层、DW层和DM层中的至少一种。具体的,大数据的数据治理整个环节,即:从数据的采集到数据的清洗、转换、计算、建模等一系列的步骤,这其中数据一般经过3个层:ODS、DW、DM的管理。
具体的,ODS的全称是Operation Data Store,中文是数据准备区,也称为贴源层,可以由ETL从源数据中直接采集生成,其数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。一般而言,ODS层数据的来源包括业务库、实时来源、埋点日志和消息队列,具体的,业务库方面经常会使用sqoop技术来抽取,例如每天定时抽取一次。而实时来源方面,可以考虑用canal技术监听mysql数据库的binlog,实时接入即可。埋点日志方面,日志一般以文件的形式保存,可以选择用flume技术定时同步,或可以用sparkstreaming技术、Flink 技术或kafka技术来实时接入,而消息队列方面的来源,也即来自ActiveMQ或Kafka的数据。
具体的,DW的全称是data warehouse,也即数据仓库层,一般由ODS数据通过ETL工具的清洗、转换、计算等组件处理后生成。
具体的,DM的全称是Data Mart,也即数据集市,一般由DW数据通过主题建模处理生成。具体的,DW数据或DM数据的生成是有先提条件的,即:由业务需求与主题分析来决定。
102、创建每一阶段对应的数据接收线程。
103、当任一数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程。
104、根据数据治理线程对应的数据治理层对应的数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理。
可见,实施本发明实施例所描述的方法能够利用SEDA架构的数据治理架构建立不同数据治理层和不同阶段之间的对应关系,并在接收到数据根据对应的数据治理规则进行治理,从而能够实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。
作为一种可选的实施例,数据接收线程为状态标志扫描线程,状态标志扫描线程在扫描到目标状态标志为第一标志时,识别为接收到数据治理数据;状态标志扫描线程在扫描到目标状态标志为第二标志时,识别为未接收到数据治理数据。
可选的,目标状态标志可以为数据更新的状态(FSM)标志,通过对其进行扫描和识别来确定是否接收到数据。
通过上述实施例,能够根据状态标志扫描线程对目标状态标志进行扫描来确定是否接收到数据治理数据,从而能够及时在接收到数据时对数据进行相应的数据治理,以便于实现对数据治理不同层次的数据进行分别的数据调度和处理,减少不同数据治理层之间的调度干扰,提高数据治理的效率和效果。
作为一种可选的实施例,多个阶段包括多个相互之间成顺序的阶段,与数据治理的多个成顺序的治理层一一对应,如ODS、DW、DM三个层。
相应的,该方法还包括:
在任一数据治理线程中对数据治理数据进行数据治理处理后,确定该数据治理线程对应的阶段所属的阶段类型;
当阶段类型为非最后阶段时,将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程,确定为接收到数据治理数据的状态,并销毁数据治理线程。
通过上述实施例,能够在数据治理后将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程,确定为接收到数据治理数据的状态,并销毁数据治理线程,以实现对下一阶段的处理线程的启动和对线程的销毁回收,实现计算资源的处理回收,提高数据治理的整体资源利用率。
作为一种可选的实施例,在任一数据治理线程中对数据治理数据进行数据治理处理后,该方法还包括:
将该数据治理线程对应的目标状态标志更新为第二标志。
相应的,上述步骤中的,将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程,确定为接收到数据治理数据的状态,包括:
将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程对应的目标状态标志更新为第一标志。
通过上述实施例,能够利用目标状态标志的更新来停止本阶段线程的处理或启动下一阶段线程的数据处理,实现数据处理的调度流动,提高数据处理的效率。
作为一种可选的实施例,每一阶段对应的数据治理层对应于一个数据容器。具体的,本发明中的数据容器,是一种可与外界隔离的进程,其通过名字空间(Namespace)、控制组(Control groups)、切根(chroot)技术把资源、文件、设备、状态和配置划分到一个独立的空间。
具体的,在任一数据治理线程中对数据治理数据进行数据治理处理后,该方法还包括:
将处理后的数据治理数据,储存至该数据治理线程对应的阶段对应的数据治理层对应的数据容器中。
在一个具体的实施方案中,公开了一种数据治理架构,将ODS、DW、DM三层不同的数据放在不同的容器中,构建含有3个Stage(分别为S1、S2、S3)的一个SEDA架构,建立容器与Stage的一一对应关系(如:S1<->ODS, S2<->ODS, S3<->DM),S1、S2、S3之间的消息队列采用数据更新的状态(FSM)标志,即:当有数据更新(有新的数据如:新增、修改、删除等操作行为存在时)。在数据治理时,分别在S1、S2、S3中各创建一个基于事件驱动的状态更新扫描线程,每个线程负责扫描各自的数据更新状态标志,当某个数据更新状态标志为T(T有数据更新、F无数据更新),创建一个新的线程,并按数据治理规则完成数据的治理,并将数据放到相应的容器中,修改数据更新状态标志为F并将下层数据更新状态更新为T(DW或DM),消毁所创建的新线程,释放资源,其数据治理流程可以参考图4。其中,当Stage为S3时,无下层数据更新标志需更新,而Stage为S1时,属于数据采集阶段,这时S1的数据更新标志扫描线程需要扫描数据更新标志对象的每个元素(即表的每一条记录的源数据采集对象名)并检测源数据的更新状态,进行而采集数据,而Stage为S2时,属于数据的清洗、转换与计算阶段,即主数据(宽表)的治理阶段,而(4)Stage为S3时,属于主题建模阶段。
上述具体实施方案能够采用容器技术、SEDA阶段性事件驱动的服务器应用程序架构,对大数据治理各个环节的数据通过线程池的有效资源调度,分阶段(层)地利用数据更新状态标志(FSM)对其需要更新治理的数据进行高效有序的处理,从而保证不同阶段(层级)数据的治理不会相互影响,同时针对在大数据的治理过程中数据治理线程的可回收性设计,可有效提高系统资源的合理调度和利用。
通过上述实施例,能够实现对不同治理层和相应的容器的关联,以实现将不同治理层的数据进行分别的储存,提高数据治理中不同数据的相互隔离独立,提高数据治理的效果。
作为一种可选的实施例,上述步骤中的,根据数据治理线程对应的数据治理层对应的数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理,包括:
确定数据治理线程对应的数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一候选数据治理规则对应的多个历史处理结果数据;
在历史数据库中获取数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程所接收过的多个历史接收数据;
计算每一候选数据治理规则对应的多个历史处理结果数据与多个历史接收数据之间的数据相似度;
将数据相似度最高的候选数据治理规则,确定为目标数据治理规则;
根据目标数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理。
通过上述实施例,能够基于对候选数据治理规则的结果数据和下一阶段的接收数据之间的相似度,来确定数据治理规则的匹配度,以筛选出目标数据治理规则,从而能够确定出准确和合理的数据治理规则来实现数据治理,提高数据治理的精度和效果。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于SEDA线程调度的数据治理系统的结构示意图。其中,图2所描述的系统可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该系统可以包括:
建立模块201,用于建立基于SEDA架构的包括有多个阶段的数据治理架构;每一阶段对应于一个数据治理层;
第一创建模块202,用于创建每一阶段对应的数据接收线程;
第二创建模块203,用于当任一数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;
处理模块204,用于根据数据治理线程对应的数据治理层对应的数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理。
作为一种可选的实施例,数据治理层包括ODS层、DW层和DM层中的至少一种。
作为一种可选的实施例,数据接收线程为状态标志扫描线程;状态标志扫描线程在扫描到目标状态标志为第一标志时,识别为接收到数据治理数据;状态标志扫描线程在扫描到目标状态标志为第二标志时,识别为未接收到数据治理数据。
作为一种可选的实施例,多个阶段包括多个相互之间成顺序的阶段;该装置还包括更新模块,用于执行以下操作:
在任一数据治理线程中对数据治理数据进行数据治理处理后,确定该数据治理线程对应的阶段所属的阶段类型;
当阶段类型为非最后阶段时,将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程,确定为接收到数据治理数据的状态,并销毁数据治理线程。
作为一种可选的实施例,在任一数据治理线程中对数据治理数据进行数据治理处理后,更新模块还执行以下操作:
将该数据治理线程对应的目标状态标志更新为第二标志;
以及,更新模块将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程,确定为接收到数据治理数据的状态的具体方式,包括:
将该数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程对应的目标状态标志更新为第一标志。
作为一种可选的实施例,每一阶段对应的数据治理层对应于一个数据容器;在任一数据治理线程中对数据治理数据进行数据治理处理后,处理模块204还执行以下操作:
将处理后的数据治理数据,储存至该数据治理线程对应的阶段对应的数据治理层对应的数据容器中。
作为一种可选的实施例,处理模块204根据数据治理线程对应的数据治理层对应的数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理的具体方式,包括:
确定数据治理线程对应的数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一候选数据治理规则对应的多个历史处理结果数据;
在历史数据库中获取数据治理线程对应的阶段在顺序中的下一阶段对应的数据接收线程所接收过的多个历史接收数据;
计算每一候选数据治理规则对应的多个历史处理结果数据与多个历史接收数据之间的数据相似度;
将数据相似度最高的候选数据治理规则,确定为目标数据治理规则;
根据目标数据治理规则,在数据治理线程中对数据治理数据进行数据治理处理。
本发明实施例中的模块细节和技术效果可以参照实施例一中的表述,在此不再赘述。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于SEDA线程调度的数据治理系统的结构示意图。如图3所示,该系统可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于SEDA线程调度的数据治理方法中的部分或全部步骤。
实施例四
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于SEDA线程调度的数据治理方法中的部分或全部步骤。
以上所描述的系统实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于SEDA线程调度的数据治理方法及系统所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (9)

1.一种基于SEDA线程调度的数据治理方法,其特征在于,所述方法包括:
建立基于SEDA架构的包括有多个阶段的数据治理架构;每一所述阶段对应于一个数据治理层;所述多个阶段包括多个相互之间成顺序的阶段;
创建每一所述阶段对应的数据接收线程;
当任一所述数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;
确定所述数据治理线程对应的所述数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一所述候选数据治理规则对应的多个历史处理结果数据;
在所述历史数据库中获取所述数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程所接收过的多个历史接收数据;
计算每一所述候选数据治理规则对应的多个历史处理结果数据与所述多个历史接收数据之间的数据相似度;
将所述数据相似度最高的所述候选数据治理规则,确定为目标数据治理规则;
根据所述目标数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
2.根据权利要求1所述的基于SEDA线程调度的数据治理方法,其特征在于,所述数据治理层包括ODS层、DW层和DM层中的至少一种。
3.根据权利要求2所述的基于SEDA线程调度的数据治理方法,其特征在于,所述数据接收线程为状态标志扫描线程;所述状态标志扫描线程在扫描到目标状态标志为第一标志时,识别为接收到数据治理数据;所述状态标志扫描线程在扫描到所述目标状态标志为第二标志时,识别为未接收到数据治理数据。
4.根据权利要求3所述的基于SEDA线程调度的数据治理方法,其特征在于,所述方法还包括:
在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,确定该数据治理线程对应的所述阶段所属的阶段类型;
当所述阶段类型为非最后阶段时,将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态,并销毁所述数据治理线程。
5.根据权利要求4所述的基于SEDA线程调度的数据治理方法,其特征在于,在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述方法还包括:
将该数据治理线程对应的所述目标状态标志更新为第二标志;
以及,所述将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程,确定为接收到数据治理数据的状态,包括:
将该数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程对应的所述目标状态标志更新为第一标志。
6.根据权利要求5所述的基于SEDA线程调度的数据治理方法,其特征在于,每一所述阶段对应的所述数据治理层对应于一个数据容器;在任一所述数据治理线程中对所述数据治理数据进行数据治理处理后,所述方法还包括:
将处理后的所述数据治理数据,储存至该数据治理线程对应的所述阶段对应的所述数据治理层对应的所述数据容器中。
7.一种基于SEDA线程调度的数据治理系统,其特征在于,所述系统包括:
建立模块,用于建立基于SEDA架构的包括有多个阶段的数据治理架构;每一所述阶段对应于一个数据治理层;
第一创建模块,用于创建每一所述阶段对应的数据接收线程;所述多个阶段包括多个相互之间成顺序的阶段;
第二创建模块,用于当任一所述数据接收线程接收到数据治理数据时,为该数据接收线程创建对应的数据治理线程;
处理模块,用于根据所述数据治理线程对应的所述数据治理层对应的数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理,具体包括:
确定所述数据治理线程对应的所述数据治理层对应的多个候选数据治理规则;
在历史数据库中获取每一所述候选数据治理规则对应的多个历史处理结果数据;
在所述历史数据库中获取所述数据治理线程对应的所述阶段在所述顺序中的下一阶段对应的所述数据接收线程所接收过的多个历史接收数据;
计算每一所述候选数据治理规则对应的多个历史处理结果数据与所述多个历史接收数据之间的数据相似度;
将所述数据相似度最高的所述候选数据治理规则,确定为目标数据治理规则;
根据所述目标数据治理规则,在所述数据治理线程中对所述数据治理数据进行数据治理处理。
8.一种基于SEDA线程调度的数据治理系统,其特征在于,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-6任一项所述的基于SEDA线程调度的数据治理方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-6任一项所述的基于SEDA线程调度的数据治理方法。
CN202311500858.XA 2023-11-13 2023-11-13 基于seda线程调度的数据治理方法及系统 Active CN117234694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311500858.XA CN117234694B (zh) 2023-11-13 2023-11-13 基于seda线程调度的数据治理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311500858.XA CN117234694B (zh) 2023-11-13 2023-11-13 基于seda线程调度的数据治理方法及系统

Publications (2)

Publication Number Publication Date
CN117234694A CN117234694A (zh) 2023-12-15
CN117234694B true CN117234694B (zh) 2024-03-01

Family

ID=89098720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311500858.XA Active CN117234694B (zh) 2023-11-13 2023-11-13 基于seda线程调度的数据治理方法及系统

Country Status (1)

Country Link
CN (1) CN117234694B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569238A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN111008234A (zh) * 2019-11-27 2020-04-14 杭州安恒信息技术股份有限公司 基于网络安全数据治理的数仓处理方法
CN114116667A (zh) * 2021-11-23 2022-03-01 国网上海市电力公司 一种电力数据应用场景的数据治理系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090240526A1 (en) * 2008-03-19 2009-09-24 General Electric Company Systems and Methods for a Medical Device Data Processor
US20220391848A1 (en) * 2021-06-07 2022-12-08 International Business Machines Corporation Condensing hierarchies in a governance system based on usage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569238A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN111008234A (zh) * 2019-11-27 2020-04-14 杭州安恒信息技术股份有限公司 基于网络安全数据治理的数仓处理方法
CN114116667A (zh) * 2021-11-23 2022-03-01 国网上海市电力公司 一种电力数据应用场景的数据治理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETL过程优化与增量数据抽取的研究;舒琦;中国优秀硕士学位论文全文数据库信息科技辑(月刊)(第07期);I138-772 *
舒琦.ETL过程优化与增量数据抽取的研究.中国优秀硕士学位论文全文数据库信息科技辑(月刊).2013,(第07期),I138-772. *

Also Published As

Publication number Publication date
CN117234694A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN106599197B (zh) 数据采集交换引擎
CN111324610A (zh) 一种数据同步的方法及装置
CN106528275A (zh) 数据任务的处理方法及任务调度器
WO2021204013A1 (zh) 智能派工方法、装置、设备及存储介质
CN112000649B (zh) 一种基于map reduce的增量数据同步的方法和装置
CN110502538B (zh) 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN104298671B (zh) 数据统计分析方法及装置
CN112559525B (zh) 数据检查系统、方法、装置和服务器
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN114048188A (zh) 一种跨数据库的数据迁移系统及方法
CN117234694B (zh) 基于seda线程调度的数据治理方法及系统
CN113360581A (zh) 数据处理方法、装置及存储介质
CN1152338C (zh) 一种并行处理分布式数据库的方法和装置
CN107609194B (zh) 一种面向云计算的时间冗余电力负荷数据的存储方法
CN104731900A (zh) 一种Hive调度方法及装置
CN117251254B (zh) 基于容器分离的数据治理方法及系统
CN113360558A (zh) 数据处理方法、数据处理装置、电子设备及存储介质
Wang et al. OPTAS: Optimal data placement in MapReduce
CN113590217A (zh) 基于引擎的函数管理方法、装置、电子设备及存储介质
CN113297218A (zh) 一种多系统数据交互方法、装置及系统
KR20210123635A (ko) 인공지능을 이용한 이미지 자동 학습 시스템 및 그 방법
CN113297217B (zh) 一种数据传输方法、装置及系统
CN116680263A (zh) 数据清洗方法、装置、计算机设备及存储介质
CN115242688A (zh) 一种网络故障检测方法、装置以及介质
WO2023033726A2 (en) Method and apparatus for processing data, and server and storage medium thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant