CN114547165A - 一种数据标准化智能处理方法及装置 - Google Patents

一种数据标准化智能处理方法及装置 Download PDF

Info

Publication number
CN114547165A
CN114547165A CN202210060268.9A CN202210060268A CN114547165A CN 114547165 A CN114547165 A CN 114547165A CN 202210060268 A CN202210060268 A CN 202210060268A CN 114547165 A CN114547165 A CN 114547165A
Authority
CN
China
Prior art keywords
data
processing
message
standardization
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210060268.9A
Other languages
English (en)
Inventor
戴琼
彭怀梁
郝炜
白旭
刘燕兵
童超东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202210060268.9A priority Critical patent/CN114547165A/zh
Publication of CN114547165A publication Critical patent/CN114547165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Abstract

本发明公开了一种数据标准化智能处理方法及装置。该方法包括:创建初始消息队列;创建结果消息队列;根据初始数据处理策略,从数据仓库中获取、组织待处理的数据,推送到消息总线;对消息总线中的消息进行解析、执行标准化处理,根据结果数据处理策略把结果写回消息总线;对消息总线中的结果消息进行解析并更新到数据仓库。本发明由用户通过配置数据标准化知识库实现实例化和个性化定制,采用消息总线解耦数据源和数据标准化处理功能,具备很好的适应性和可扩展性。本发明实现对多来源、内容格式不一致的数据的统一规范化处理,形成标准化数据,提升数据标准化处理的智能化和自动化程度,降低人工操作错误率,从而提高了数据处理效率和数据质量。

Description

一种数据标准化智能处理方法及装置
技术领域
本发明属于数据治理技术领域,具体涉及一种数据标准化智能处理方法及装置。
背景技术
信息化高速发展的今天,每时每刻都在产生着海量的数据,这些数据如果加以利用并充分发挥其价值,可以为社会、经济的发展带来巨大帮助。但是,数据的产生渠道多样,导致同一含义的信息,数据格式、数据结构等切呈现多样性,给数据的利用带来困难。因此,如何获得可用、易用的数据,使得数据的使用更加规范化,是数据价值变现的重要基础和前提条件,也是提高数据利用效率的有效途径之一。
可用性是数据可以被利用的基本要求,错误、残缺的数据,不能有效辅助业务,对业务来说就是无效数据,不具备可用性;易用性则是数据容易被用户广泛接受和使用的基础。因此,对数据进行规范化的定义和处理,获得标准化数据,将极大地降低数据共享难度和下游数据计算的资源投入。
针对以上应用需求,本发明提出一种新的方法,实现数据标准化处理过程的智能化,简化用户操作、降低使用难度,提升数据标准化处理效率,具有实际的应用价值和应用前景。
发明内容
本发明目的在于提供一种数据标准化智能处理方法及装置,适用于细粒度(如数据库表字段)数据标准化处理,支持不同数据类型、不同内容结构的字段信息的规范化处理,形成标准化数据。同时,利用人机交互可视化、消息总线、插拔式组件管理等技术,使得装置具备快速适应字段内容特点、处理标准化要求等数据或业务需求变更的能力,提升易用性和适应性。
为实现上述目的,本发明采用如下技术方案:
一种数据标准化智能处理方法,其步骤包括:
1)创建初始消息队列(IMQ:Initial Message Queue);
2)创建结果消息队列(RMQ:Result Message Queue);
3)依据初始数据处理策略(IDPS:Initialize Data Processing Strategy),从数据仓库中读取待标准化处理的字段信息,并按照数据组织规范(DS:Data Schema)将字段信息组织为消息,并写入IMQ中;
4)从IMQ中读取一条消息,进行标准化处理,并依据结果数据处理策略(RDPS:Result Data Processing Strategy),将处理结果写入RMQ中;
5)依次从RMQ中获取消息,解析和还原消息内容,获得标准化处理结果,并把结果数据写回数据仓库中。
进一步地,使用消息总线系统缓存所述初始消息队列。
进一步地,使用消息总线系统缓存所述结果消息队列。
进一步地,所述初始数据处理策略包括:定义待实施标准化处理的字段,此处所指字段可以是一个或多个,且多个字段可以来源于一个数据表,也可以是多个数据表。
进一步地,所述数据组织规范DS定义消息内容格式。
进一步地,可重复步骤3),将多条消息依次写入IMQ。
进一步地,所述标准化处理的处理能力和处理逻辑,可以由用户通过配置数据标准化知识库进行自定义配置。
进一步地,所述数据标准化知识库包括:数据标准化元操作字典(DSOD:DataStandardization Operation Dictionary)、数据标准化处理器(DPU:Data ProcessUnit)、数据标准化规则集、数据标准化模型。
进一步地,所述数据标准化元操作字典DSOD包括:字段标识、字段类别标识、数据标准化处理器标识,DSOD在具体实施时由用户自定义配置。
进一步地,所述数据标准化处理器DPU通过加载数据标准化规则或数据标准化模型,实现标准化处理操作的实例化。其中,数据标准化规则或数据标准化模型,依据数据标准化要求,在具体实施时由用户自定义配置。
进一步地,所述标准化处理包括:
4.1)从IMQ中读取一条消息并进行解析,依次还原消息内容,并以键值对<Ki,Vi>的方式进行组织;Ki(Key)为字段i的标识,Vi(Value)为字段i的属性值,i=1、2、…、n,n为字段数;
4.2)以<Ki,Vi>作为输入,基于数据标准化知识库实现标准化处理操作:
(1)以Ki作为检索条件,基于数据标准化元操作字典DSOD进行检索,获取关联的数据标准化处理器DPUi,i=1、2、…、n。该步骤仅在处理第一条消息时执行;
(2)把Vi输入DPUi,执行标准化处理操作后,输出标准化结果值SVi(StandardValue),获得<Ki,SVi>;
(3)依次处理<Ki,Vi>,i=1、2、…、n,并依照结果数据处理策略RDPS,将<Ki,SVi>键值对组织为一条或多条消息,分别写入相应的RMQj(j=1、2、…、m)中。
进一步地,所述结果数据处理策略RDPS可以由用户定制,例如:把结果数据写入一个消息队列RMQj(j=1),也可以写入多个消息队列RMQj(j=1、2、…、m)。
进一步地,依次从RMQj(j=1、2、…、m)中获取消息,解析和还原消息内容,获得标准化处理结果,并把结果数据写回数据仓库中。具体包括:
5.1)解析和还原消息内容,获得<Ki,SVi>值对;
5.2)依据Ki,把SVi更新到数据仓库。
一种数据标准化智能处理装置,包括数据同步引擎、消息总线、数据标准化引擎、数据回写引擎、数据标准化知识库;
所述数据同步引擎从数据仓库中提取待进行标准化处理的数据,并封装为消息后推送到所述消息总线的初始消息队列中;
所述数据标准化引擎从所述消息总线的初始消息队列中读取消息,调用所述数据标准化知识库进行数据标准化处理,并将处理结果写入所述消息总线的结果消息队列中;
所述数据回写引擎解析所述消息总线的结果消息队列中的数据,将标准化处理后的结果数据写回数据仓库中,实现数据更新;
所述数据标准化知识库用来实现数据标准化处理的逻辑定义及工具组件的实例化组装。
一种电子装置,包括存储器和处理器,其中存储器存储执行以上所述方法的程序。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
与现有方法相比,通过本发明上述方法和装置,每个组织可结合其拥有的数据资产的特点、业务应用需求的特点等进行具体实例化,根据业务应用需求抽象数据标准化要求并构建数据标准化知识库,根据数据源特点构建初始数据处理策略IDPS、结果数据处理策略RDPS,帮助组织快速搭建一套数据标准化智能处理装置,实现对不同数据类型、不同内容结构的数据字段信息的规范化处理,形成标准化数据,降低人工操作错误率,提高数据质量。并且,通过自定义初始数据处理策略、结果数据处理策略和数据标准化知识库,能够实现对数据和业务的灵活适应,进一步提升装置的易用性、适应性和可扩展性。
附图说明
图1为本发明一种实施例的方法流程图。
图2为本发明一种实施例的整体装置结构示意图。
图3为本发明一种实施例的装置基础运行环境构建流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明一实施例的数据标准化智能处理方法,如图1所示,包括以下步骤:
S1.初始数据获取:依照初始数据处理策略IDPS,从数据仓库中获取待标准化处理的初始数据。
S2.初始消息生产:把获取的初始数据,按照数据组织规范DS的要求组织为消息,并推送至相应的初始消息队列IMQ中。
S3.初始消息解析:从初始消息队列IMQ中读取消息,并对消息进行解析,还原消息内容,并按照<Ki,Vi>(i=1、2、…、n)键值对方式组织。
S4.数据标准化处理:根据Ki,查找到对应的Vi,把Vi输入数据标准化处理器DPUi,输出SVi
S5.结果消息生产:按照结果数据处理策略RDPS和数据组织规范DS,把<Ki,SVi>(i=1、2、…、n)组织为结果数据消息,并分别写入相应的结果消息队列RMQj(j=1、2、…、m)。
S6.结果消息解析:依次从结果消息队列RMQj(j=1、2、…、m)中获取消息,解析和还原消息内容,并按照<Ki,SVi>(i=1、2、…、n)键值对方式组织。
S7.结果数据回写:依据Ki,把对应的标准化处理结果数据SVi写回数据仓库中。
进一步地,所述初始数据处理策略IDPS,可以根据领域专家知识或者由用户自定义进行配置。
进一步地,所述数据组织规范DS,采用JSON格式,对<Key,Value>键值对数据进行封装。
进一步地,所述数据标准化处理器DPU调用预置的标准化处理规则或者标准化处理模型,执行相应的标准化操作。
进一步地,所述标准化处理规则,用来对数据进行清洗、转换、过滤等处理,可以根据领域专家知识或者由用户自定义进行配置。
进一步地,所述标准化处理模型,主要实现对非结构化数据进行实体抽取、关系抽取等处理,可以根据数据标准化处理要求定制开发。
进一步地,所述结果数据处理策略RDPS,可以根据领域专家知识或者由用户自定义进行配置。
作为本发明的另一方面提供了一种数据标准化智能处理装置,如图2所示,例如,本实施例中的数据标准化智能处理装置可以进行如下数据标准化实例的创建和应用,包括:
1、设计装置的外部接口,包括数据输入和数据输出接口:
1)数据输入:支持多路数据来源、多种数据格式的数据输入;
2)数据输出:数据经过标准化处理,写回原始数据存储区域并更新原始数据。
2、设计装置的内部功能部件。包括数据同步引擎、消息总线、数据标准化引擎、数据回写引擎、数据标准化知识库等多个模块。
1)所述数据同步引擎,实现从数据仓库中提取待进行标准化处理的数据,并封装为消息后推送到消息总线中。
进一步地,通过自定义配置初始数据处理策略IDPS实现数据同步引擎的实例化,实现装置的数据输入接口的配置。
进一步地,通过自定义配置结果数据处理策略RDPS实现数据回写引擎的实例化,实现装置的数据输出接口的配置。
2)所述消息总线,实现消息缓存与共享交换。
进一步地,所述消息总线支持多个消息队列缓存,消息队列根据IDPS和RDPS自动创建,消息队列的数量和消息内容格式由IDPS、RDPS和DS共同确定。
3)所述数据标准化引擎,执行数据标准化处理。
进一步地,从消息总线的初始消息队列中读取消息。
进一步地,当读取消息队列中的第一条消息时,执行引擎的初始化。在引擎初始化过程中,分别查找到各个字段对应的数据标准化处理器,并自动挂载到数据标准化引擎中,挂载成功则设置数据标准化处理器状态为就绪,否则为空。
进一步地,对消息进行解析,并自动识别消息包含的字段。
进一步地,如果字段所对应的数据标准化处理器状态为就绪,则对字段值进行数据标准化处理。
进一步地,把各个字段值的标准化处理结果,按照RDPS和DS的要求组织好,并写入到消息总线中的结果消息队列中。
4)所述数据回写引擎,用来解析结果消息队列中的数据,并把标准化处理后的结果数据写回数据仓库中,实现数据更新。
5)所述数据标准化知识库,用来实现数据标准化处理的逻辑定义及工具组件的实例化组装。
进一步地,所述数据标准化知识库,包括:数据标准化元操作字典、数据标准化处理器、数据标准化处理规则、数据标准化处理模型等。
进一步地,所述数据标准化元操作字典,由用户进行配置。
进一步地,所述数据标准化处理器,是加载数据标准化处理规则或数据标准化处理模型,并执行标准化处理操作的软件程序。
进一步地,所述数据标准化规则,由用户进行配置。
进一步地,所述数据标准化模型,根据数据处理的需求进行定制化开发。
进一步地,所述数据标准化知识库,可以在装置的部署应用中逐步积累,根据数据源的特点、业务应用的特点进行实例化,支持扩展。
3、构建一个满足业务使用的数据标准化智能处理装置基础运行环境(图3),包括:
1)初始化数据标准化知识库:通过数据标准化知识库的可视化操作界面,配置数据标准化元操作字典、数据标准化处理器、数据标准化规则、数据标准化模型的基础信息。
2)数据标准化处理策略配置:当有数据标准化处理需求时,通过数据同步引擎的可视化操作界面配置相应的IDPS、RDPS。例如:从表A中读取字段L1、L2、L3,写入IMQ1,把L1和L2标准化处理的结果信息写入RMQ1,L3标准化处理的结果信息写入RMQ2。可以通过配置新的IDPS、RDPS来满足新的数据标准化处理需求。
3)扩展数据标准化知识库:当已有的数据标准化知识库不能满足数据标准化处理需求时,可以通过扩展数据标准化知识库中的数据标准化处理器组件、规则、模型、以及操作字典,来适应新的需求。
4、以上构建好的数据标准化智能处理装置,在具体处理数据时,采用本发明提供的一种数据标准化方法,包括如下步骤:
首先,调用数据同步引擎①获取待处理的初始数据,并按照规范组织后写入消息总线②。
其次,数据标准化处理引擎③从消息总线中②读取消息,并进行数据标准化处理。
进一步地,数据标准化处理引擎③把处理结果信息写入消息总线②。
进一步地,数据回写引擎④从消息总线②读取标准化结果信息后,更新到数据仓库中。
至此,完成初始数据读取、数据标准化处理、标准化结果数据更新等过程。
最后所应说明的是,以上实施案例仅用以说明本发明的技术方案而非限制,尽管使用事例对本发明进行了详细说明,本领域的普通技术人员应当理解,可对本发明的技术方案进行修改或者等价替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种数据标准化智能处理方法,其特征在于,包括以下步骤:
创建初始消息队列;
创建结果消息队列;
依据初始数据处理策略,从数据仓库中读取待标准化处理的字段信息,并按照数据组织规范将字段信息组织为消息,并写入初始消息队列中;
从初始消息队列中读取一条消息,进行标准化处理,并依据结果数据处理策略将处理结果写入结果消息队列中;
依次从结果消息队列中获取消息,解析和还原消息内容,获得标准化处理结果,并把结果数据写回数据仓库中。
2.如权利要求1所述的方法,其特征在于,所述初始数据处理策略包括:定义待实施标准化处理的数据字段,所指字段可以是一个或多个,且多个字段可以来源于一个数据表,也可以是多个数据表。
3.如权利要求1所述的方法,其特征在于,通过所述数据组织规范定义消息内容格式。
4.如权利要求1所述的方法,其特征在于,所述标准化处理,是从初始消息队列中读取消息并基于数据标准化知识库实现数据的标准化处理操作;所述数据标准化知识库包括:数据标准化元操作字典、数据标准化处理器、数据标准化规则集、数据标准化模型;所述数据标准化知识库的处理能力和处理逻辑由用户自定义配置,以灵活适应数据特点和标准化处理要求。
5.如权利要求4所述的方法,其特征在于,所述标准化处理,包括:
从初始消息队列中读取一条消息并进行解析,依次还原消息内容,并以键值对<Ki,Vi>的方式进行组织;Ki为字段i的标识,Vi为字段i的属性值,i=1、2、…、n,n为字段数;
以<Ki,Vi>作为输入,基于数据标准化知识库实现标准化处理操作,包括:
(1)以Ki作为检索条件,基于数据标准化元操作字典进行检索,获取关联的数据标准化处理器DPUi,i=1、2、…、n;该步骤仅在处理第一条消息时执行;
(2)把Vi输入DPUi,执行标准化处理操作后,输出标准化结果值SVi,获得<Ki,SVi>;
(3)依次处理<Ki,Vi>,i=1、2、…、n,并依照结果数据处理策略,将<Ki,SVi>键值对组织为一条或多条消息,分别写入相应的结果消息队列RMQj中,其中j=1、2、…、m。
6.如权利要求1所述的方法,其特征在于,依据结果数据处理策略把标准化处理结果数据写入一个或多个结果消息队列中。
7.一种数据标准化智能处理装置,其特征在于,包括数据同步引擎、消息总线、数据标准化引擎、数据回写引擎、数据标准化知识库;
所述数据同步引擎从数据仓库中提取待进行标准化处理的数据,并封装为消息后推送到所述消息总线的初始消息队列中;
所述数据标准化引擎从所述消息总线的初始消息队列中读取消息,调用所述数据标准化知识库进行数据标准化处理,并将处理结果写入所述消息总线的结果消息队列中;
所述数据回写引擎解析所述消息总线的结果消息队列中的数据,将标准化处理后的结果数据写回数据仓库中,实现数据更新;
所述数据标准化知识库用来实现数据标准化处理的逻辑定义及工具组件的实例化组装。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被设置为运行时执行权利要求1-6中任一权利要求所述的方法。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-6中任一权利要求所述的方法。
CN202210060268.9A 2022-01-19 2022-01-19 一种数据标准化智能处理方法及装置 Pending CN114547165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210060268.9A CN114547165A (zh) 2022-01-19 2022-01-19 一种数据标准化智能处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210060268.9A CN114547165A (zh) 2022-01-19 2022-01-19 一种数据标准化智能处理方法及装置

Publications (1)

Publication Number Publication Date
CN114547165A true CN114547165A (zh) 2022-05-27

Family

ID=81670927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210060268.9A Pending CN114547165A (zh) 2022-01-19 2022-01-19 一种数据标准化智能处理方法及装置

Country Status (1)

Country Link
CN (1) CN114547165A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422305A (zh) * 2022-11-04 2022-12-02 暨南大学 网络社交媒体数据管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422305A (zh) * 2022-11-04 2022-12-02 暨南大学 网络社交媒体数据管理方法及装置

Similar Documents

Publication Publication Date Title
US7822710B1 (en) System and method for data collection
US9146955B2 (en) In-memory, columnar database multidimensional analytical view integration
US20110314456A1 (en) System and Method for Mapping Structured Document to Structured Data of Program Language and Program for Executing Its Method
US20110173220A1 (en) Generating web services from business intelligence queries
CN113196231A (zh) 用于解耦对基础设施模型的访问的技术
CN109522341A (zh) 实现基于sql的流式数据处理引擎的方法、装置、设备
CN108345691B (zh) 数据源通用处理框架构建方法、数据源处理方法及装置
US11829814B2 (en) Resolving data location for queries in a multi-system instance landscape
CN114547165A (zh) 一种数据标准化智能处理方法及装置
CN113094039B (zh) 一种基于数据库表的代码自动生成系统
CN111367638A (zh) 一种处理方法及计算机设备
CN112970011A (zh) 记录查询优化中的谱系
CN114385145A (zh) 一种Web系统后端架构设计方法及计算机设备
US20200301922A1 (en) Multiform persistence abstraction
CN109388619B (zh) 共享数据系统及共享数据方法
US8019781B2 (en) Host context framework
CN113343036B (zh) 基于关键拓扑结构分析的数据血缘关系解析方法和系统
EP4354281A1 (en) Converting an api into a graph api
US20230359445A1 (en) Method and system for providing faas based feature library using dag
US20230367786A1 (en) Unified cloud storage data processing framework for multi-source systems
US20230359668A1 (en) Dataflow graph datasets
US9824170B1 (en) Message filtering for electronic design automation systems
TW202230155A (zh) 動靜態資料庫管理系統及方法
TWM614620U (zh) 動靜態資料庫管理系統
CN117850754A (zh) 一种低代码支持多平台的表达式处理和执行的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination