CN111339071B - 一种多源异构数据的处理方法及装置 - Google Patents

一种多源异构数据的处理方法及装置 Download PDF

Info

Publication number
CN111339071B
CN111339071B CN202010110363.6A CN202010110363A CN111339071B CN 111339071 B CN111339071 B CN 111339071B CN 202010110363 A CN202010110363 A CN 202010110363A CN 111339071 B CN111339071 B CN 111339071B
Authority
CN
China
Prior art keywords
data
data processing
processing method
processing
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010110363.6A
Other languages
English (en)
Other versions
CN111339071A (zh
Inventor
李男一
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202010110363.6A priority Critical patent/CN111339071B/zh
Publication of CN111339071A publication Critical patent/CN111339071A/zh
Application granted granted Critical
Publication of CN111339071B publication Critical patent/CN111339071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种多源异构数据的处理方法及装置,该方法包括:数据处理任务定时从缓存中获取数据处理方法,其中,数据处理方法根据数据处理模板以及实时获取到的参数生成;判断从缓存中获取到的数据处理方法与数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的数据处理方法作为当前数据处理方法;使用当前数据处理方法对待处理数据进行处理,获取目标格式的数据。本发明通过模板化的数据处理规则配置,对来自不同数据源的异构数据进行统一的格式转换过滤,按配置模板输出标准数据,让多源异构实时流数据清洗可动态配置,业务无中断,无需硬编码,快速响应业务需求的变化。

Description

一种多源异构数据的处理方法及装置
技术领域
本发明涉及实时流数据处理技术领域,特别涉及一种多源异构数据的处理方法及装置。
背景技术
现代大型零售企业的业务流程都是非常复杂,处理环节繁多,这些流程分别在不同业务系统中完成,并且互相扭转,各个业务系统每天都会产生海量的业务数据,企业的运营部门需要及时的对这些业务流程进行统一监控,以便在业务流程出现问题时,能够在第一时间就能发现问题,为流程管理提供实时监控能力。
监控需要实时采集数据,这些数据可能来自于不同的业务系统,即这些数据的数据源可能不同,这里可以称之为多源实时流,同时这些不同数据源的数据结构可能差异很大,这里可以称之为异构数据。要对多源异构的实时流数据进行统一监控,就必须要对这些数据进行实时清洗,将数据转化为统一的标准化格式,上一层的应用才能进行事件处理与监控。
业务流程中的业务场景时常会发生变化,导致实时监控的规则也是需要经常修改,而底层采集的数据也会因此经常改变数据结构,数据清洗的编码也因此需要同时修改。异构数据的传统清洗方式都是进行硬编码清洗,每一次数据的结构发生改变都需要重新编写解析代码,然后重新发布程序,首先对于实时流而言重新发布都会导致一定程度的业务中断,其次每次硬编码都要投入专门的人力去做重复繁杂的开发工作。
因此,亟需提出一种新的多源异构数据的处理方案,已解决上述问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种多源异构数据的处理方法及装置,以克服现有技术中不能动态配置数据处理方法(如不能动态设置过滤条件、增减字段、数据输入)等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种多源异构数据的处理方法,该方法包括如下步骤:
数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成;
判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的所述数据处理方法作为当前数据处理方法;
使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据。
进一步的,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据包括:
解析所述当前数据处理方法,至少获取数据来源信息以及处理规则;
根据所述数据来源信息从所述分布式消息队列中获取对应的待处理数据;
根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
进一步的,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据还包括:
识别所述待处理数据的数据结构,采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
进一步的,所述方法还包括:
获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
进一步的,使用所述当前数据处理方法对待处理数据进行处理前,所述方法还包括:
判断所述待处理数据的数据格式是否满足预设要求。
另一方面,提供了一种多源异构数据的处理装置,所述装置包括:
方法获取模块,用于数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成;
方法判断模块,用于判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致;
方法更新模块,用于将从缓存获取到的所述数据处理方法作为当前数据处理方法;
数据处理模块,用于使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据。
进一步的,所述数据处理模块包括:
方法解析单元,用于解析所述当前数据处理方法,至少获取数据来源信息以及处理规则;
数据获取单元,用于根据所述数据来源信息从所述分布式消息队列中获取对应的待处理数据;
数据计算单元,用于根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
进一步的,所述数据处理模块还包括:
结构识别单元,用于识别所述待处理数据的数据结构;
所述数据计算单元还用于采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
进一步的,所述装置还包括:
数据发送模块,用于获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
进一步的,所述装置还包括:
格式判断模块,用于判断所述待处理数据的数据格式是否满足预设要求。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的多源异构数据的处理方法及装置,通过数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成,判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的所述数据处理方法作为当前数据处理方法,使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据,当需要改变数据清洗的输入输出数据结构时,只需要加载更新后的数据处理方法,动态更新,保证数据处理服务的连续性,不再需要重新进行编码发布,也不需要中断数据处理服务;
2、本发明实施例提供的多源异构数据的处理方法及装置,通过使用从缓存中获取到的最新的数据处理方法替换数据处理任务对应的当前数据处理方法,实现数据处理方法的动态更新,能够快速满足数据结构变化或清洗逻辑变化的需求;
3、本发明实施例提供的多源异构数据的处理方法及装置,可以快速整合不同系统的业务数据,转换为统一形式,便捷的满足上一层跨业务系统的数据实时分析需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的多源异构数据的处理方法的关系流程图;
图2是根据一示例性实施例示出的多源异构数据的处理方法的流程图;
图3是根据一示例性实施例示出的待处理数据的数据结构为首层结构时的字段获取的流程图;
图4是根据一示例性实施例示出的待处理数据的数据结构为数组结构时的字段获取的流程图;
图5是根据一示例性实施例示出的嵌套结构字段路径表达式的示意图;
图6是根据一示例性实施例示出的待处理数据的数据结构为嵌套结构时的字段获取的流程图;
图7是根据一示例性实施例示出的多源异构数据的处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以数据清洗为例,对于业务流程实时监控等场景,当监控规则发生变化时,或者需要扩展监控的业务数据时,势必需要改变数据清洗的输入输出数据结构等。如果采用传统的硬编码方式,在解析代码重新编写后,是需要进行程序发布的,发布过程中数据输入输出是中断的,也代表了监控服务的中断。
图1是根据一示例性实施例示出的多源异构数据的处理方法的关系流程图,参照图1所示,本申请创造性的提出,将各种数据结构做抽象,将每种需要硬编码开发来解析获取数据的场景抽象为数据处理方法,直接映射成简单配置参数,通过提供配置台配置这些参数来满足不同数据结构的解析,提取需要用到的数据。上层事件监控和数据分析所需的数据必须是统一标准化,这里提取出的数据还要转化为统一的标准的格式才能输出,同样是将硬编码生成各种数据结构的场景抽象成方法,映射成配置台可配置的参数,实现输出数据的标准模板化配置。最终清洗完的标准数据将发送到标准数据分布式消息队列,提供给业务监控应用消费,实现异常事件实时监控,还可同时把数据输出到实时数据仓库,提供其他应用做实时分析。
图2是根据一示例性实施例示出的多源异构数据的处理方法的流程图,参照图2所示,该方法包括如下步骤:
S1:数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成。
具体的,本发明实施例中,将各种数据结构做抽象,将每种需要硬编码开发来解析获取数据的场景抽象为方法,直接映射成简单配置参数,通过提供配置台配置这些参数来满足不同数据结构的解析,提取需要用到的数据。
作为一种较优的示例,本发明实施例中,可以使用一个web服务作为参数的配置台,以网页的形式提供交互式配置功能,方便客户传入数据处理方法的参数。当需要改变数据处理(如清洗)的输入输出数据结构时,用户可以在配置台对数据处理模板完成配置或调整后,即传入新的参数,如接入数据来源、数据输出目的地、过滤条件、输出数据格式等,配置台首先将数据存储到模板库,然后将配置数据同步到缓存中(内存数据库)。
这里需要说明的是,本发明实施例中,基于流式计算引擎进行相应的数据处理,流式计算引擎中的数据处理任务(如数据清洗任务等)会定时(如每隔1s)从缓存中获取数据处理方法的信息。
S2:判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的所述数据处理方法作为当前数据处理方法。
具体的,在每次从缓存中获取到数据处理方法后,首先判断从缓存中获取到的数据处理方法与数据处理任务对应的当前数据处理方法是否一致。具体进行判断时,可以通过比较两者的配置信息是否发生变化。当比较出两者的配置信息不一致时,则说明从缓存中获取到的数据处理方法与数据处理任务对应的当前数据处理方法不一致,即数据处理方法有了更新,此时则将从缓存获取到的数据处理方法作为当前数据处理方法。
S3:使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据。
具体的,使用更新后的当前数据处理方法对待处理数据进行处理,获取目标格式的数据。
通过模板化的数据处理(如数据清洗)规则配置,对来自不同数据源的异构数据进行统一的格式转换过滤,按配置模板输出标准数据,让多源异构实时流数据清洗可动态配置,业务无中断,无需硬编码,快速响应业务需求的变化。
作为一种较优的实施方式,本发明实施例中,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据包括:
S101:解析所述当前数据处理方法,至少获取数据来源信息以及处理规则。
具体的,以数据清洗为例,本发明实施例中,数据处理方法中的可配置参数包括但不限于以下信息:
数据来源:待清洗的数据的来源;
目标源:接收清洗完的标准数据的源;
字段名:待清洗数据中的字段名,如果是嵌套类型需要填写字段路径;
类型:主要包括三种字段类型,首层、数组和嵌套,用来表明数据清洗时调用的场景抽象方法;
默认值:字段不存时,用来填充的默认值;
过滤条件:字段值的过滤条件,可以过滤脏数据;
输出字段:输出的字段名,本发明实施例中,只支持首层结构。不填写时表明无需输出,清洗字段只是一个过滤字段。
其中,通过设置目标源、类型、默认值、过滤条件以及输出字段这些字段属性来确定清洗规则。
作为一种较优的实施方式,本发明实施例中,可以通过以下方式来配置上述参数:
1、设置数据来源:在配置台页面中设置数据来源筛选框,用户可以通过在数据来源筛选框中选择数据来源,如果接入的待清洗数据没有配置清洗模板(即数据处理模板),该数据不会被清洗,默认会将这些数据消费后丢弃,只有配置了清洗模板的数据会被清洗转换。
2、设置目标源,在配置台页面中设置目标源筛选框,用户可以通过在目标源筛选框中选择接收清洗后的标准数据的分布式消息队列信息。
3、添加清洗字段,包括目标源、类型、默认值、过滤条件以及输出字段,设定字段清洗逻辑。
S102:根据所述数据来源信息从所述分布式消息队列中获取对应的待处理数据。
具体的,作为一种较优的实施方式,本发明实施例中,将各业务系统发送的数据的分布式消息队列的信息作为数据来源。具体实施时,各个业务系统首先将监控的数据以给定的格式(如JSON格式)发送每个系统对应的分布式消息队列,分布式消息队列中信息将作为数据源将被实时数据清洗任务消费。在获取到数据处理方法对应的数据来源信息后,根据该数据来源信息从对应的分布式消息队列中获取对应的待处理数据。
这里需要说明的是,本发明实施例中的数据来源并不仅限于上述方式,用户可以具体的需求进行设置。
S103:根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
具体的,本发明实施例中,对来自不同数据源的异构数据,如不同业务系统产生的结构不同的数据,可以合并清洗,输出统一格式的数据(即目标格式的数据)。输出统一目标格式的数据可以满足不同下游应用,如异常事件捕获、实时数据统计等。
作为一种较优的实施方式,本发明实施例中,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据还包括:
识别所述待处理数据的数据结构,采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
具体的,以JSON格式为例,本发明实施例中,待处理数据的数据结构主要包首层结构、数组结构以及嵌套结构三种,不同的数据结构对应的处理规则也不相同。
由于本发明实施例中,数据处理模板中的字段配置项(参数)是由场景抽象成的方法来实现的。以数据清洗为例,将数据清洗场景抽象为方法,转换为可配置参数。针对JSON解析和拼接的抽象过程的主要场景如下:
1、待处理数据的数据结构为首层结构,该场景下的处理规则需要提取的字段位于JSON数据的首层,例如:
Figure BDA0002388752010000091
具体实施时,可以将首层结构的场景抽象一个静态方法retrieveFirstLayerField(jsonStr,key,defaultValue),其中,方法的输入数据参数依次为:
jsonStr是需要解析的内容,内容是json格式的字符串;
key是需要获取的字段名;
defaultValue是字段默认值,字段未获取到时的返回值。
调用时依次传入上述入参,即可从原始数据中提取到所需字段的值,如未提取到所需字段的值,则返回为设置的默认值。参照图3所示,具体的提取过程如下:
先在需要解析的内容(jsonStr)中查找字段(Key)位置,获取到字段(Key)的位置后根据JSON格式的特点截取字符串的值,作为返回值,如果未获取到字段(Key)的位置表明需要获取的字段不存在,这时将默认值(defaultValue)作为返回值。
2、待处理数据的数据结构为数组结构,该场景下的处理规则需要提取的字段是一个数组内的元素,例如:
Figure BDA0002388752010000101
具体实施时,可以将数组结构的场景抽象一个静态方法retrieveArrayField(jsonStr,key,pos,defaultValue),方法的输入数据参数依次为:
jsonStr是需要解析的内容,内容是json格式的字符串;
key是需要获取元素的数组名;
pos元素在数组内位置;
defaultValue是字段默认值,字段未获取到时的返回值。
调用时依次传入上述入参,即可从原始数据中提取到所需的元素值,如未提取到所需的元素值,则返回为设置的默认值。参照图4所示,具体的提取过程如下:
先在需要解析的内容(jsonStr)中查找组数字段(Key)位置,获取到数组字段(Key)的位置后根据元素位置(pos)取出数组内的第几个元素,作为返回值,如果未获取到数组字段(Key)的位置或者根据元素位置未获取到数组相应位置的元素,这时将默认值(defaultValue)作为返回值。
3、待处理数据的数据结构为嵌套结构,该场景下的处理规则所需要提取的数据在里层,例如:
Figure BDA0002388752010000102
Figure BDA0002388752010000111
具体实施时,同样将嵌套结构的场景抽象一个静态方法retrieveDirField(jsonStr,dir,defaultValue),方法的输入数据参数依次为:
jsonStr是需要解析的内容,内容是json格式的字符串;
dir是需要获取字段的字段路径;
defaultValue是字段默认值,字段未获取到时的返回值。
调用时依次传入上述入参,即可从原始数据中提取到所需字段的值,如未提取到所需字段的值,则返回为设置的默认值。这里的字段路径(dir)是一个用字段属性组成的字符串,“|”为字段分隔,“$”为字段属性分隔,第一个属性为字段名,第二属性为字段类型,字段类型只有两种:普通字段(k),数组字段(a),如果字段类型是数组,则需第三个字段属性元素位置,整体的字段路径表达为:字段名1$字段类型1$元素位置1|…|字段名n$字段类型n$元素位置n,详细可参考图5。
例如,要取上例子中数组第一个“name”的值,字段路径可以写为:PayCompany$a$1|name$k。提取嵌套结构中数据需要按照字段路径逐层查找,参照图6所示,具体的提取过程如下:
首先解析字段路径,获取路径有几层,以及每层路径字段属性,然后根据当前层的字段属性查找在需要解析的内容(jsonStr)中查找当前层的字段位置,接着获取到字段的位置后根据字段类型获取字段值,作为下一层的解析内容,最后按照路径分层循环,直到取到最后一层的字段值作为返回值,如果逐层循环时未获取必须数据,这时将默认值(defaultValue)作为返回值。
作为一种较优的实施方式,本发明实施例中,所述方法还包括:
获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
具体的,本发明实施例中支持将同获取到的目标格式的数据发送至多个不同的目标源。具体实施时,可以对同一个数据来源配置多个数据处理模板,多个数据处理模板分别对应不同的目标源,从而可以将获取到的目标格式的数据分流输出到不同目标源,如一方面输出到分布式消息队列,同时输出到实时数据仓库。目标格式的数据可以满足不同下游应用,如异常事件捕获、实时数据统计等。
作为一种较优的实施方式,本发明实施例中,使用所述当前数据处理方法对待处理数据进行处理前,所述方法还包括:
判断所述待处理数据的数据格式是否满足预设要求。
具体的,由于JSON是一种轻量级的数据交换格式,可以支持各种复杂的数据结构,如数组,嵌套等,可以满足所有业务数据结构经常变化的需求,因此,可以设置整个实时流的数据都以JSON格式传输,即设置待处理数据的数据格式需要为JSON格式。在数据采集阶段,各个业务系统首先将监控的数据以JSON格式发送每个系统对应的分布式消息队列,分布式消息队列中将作为数据源将被实时数据处理任务消费。
使用当前数据处理方法对待处理数据进行处理前,首先会判断待处理数据是否为JSON格式的数据,如果不是JSON格式,待处理数据将被丢弃,不对该待处理数据进行处理,如果是JSON格式,则将数据转换为JSON对象,然后根据数据处理任务对待处理数据进行相应处理。
这里还需要说明的是,本发明实施例中,实时数据处理功能是基于流式计算引擎框架,用java开发通用数据处理任务,实现配置模板化的数据处理功能(如数据清洗功能等)。部署配置台web服务,以网页的方式提供清洗模板的配置能力,配置的模板数据固化到关系数据库。部署内存数据库服务,在配置台调整配置模板时,变动信息会更新到内存数据库(缓存),流式计算引擎中的实时处理任务每秒扫描一次内存数据库,发现变化后会立即更新加载到实时任务中,完成数据处理方法的动态加载。
图7是根据一示例性实施例示出的多源异构数据的处理装置的结构示意图,参照图7所示,该装置包括:
方法获取模块,用于数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成;
方法判断模块,用于判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致;
方法更新模块,用于将从缓存获取到的所述数据处理方法作为当前数据处理方法;
数据处理模块,用于使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据。
作为一种较优的实施方式,本发明实施例中,所述数据处理模块包括:
方法解析单元,用于解析所述当前数据处理方法,至少获取数据来源信息以及处理规则;
数据获取单元,用于根据所述数据来源信息从所述分布式消息队列中获取对应的待处理数据;
数据计算单元,用于根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
作为一种较优的实施方式,本发明实施例中,所述数据处理模块还包括:
结构识别单元,用于识别所述待处理数据的数据结构;
所述数据计算单元还用于采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
数据发送模块,用于获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
格式判断模块,用于判断所述待处理数据的数据格式是否满足预设要求。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的多源异构数据的处理方法及装置,通过数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成,判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的所述数据处理方法作为当前数据处理方法,使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据,当需要改变数据清洗的输入输出数据结构时,只需要加载更新后的数据处理方法,动态更新,保证数据处理服务的连续性,不再需要重新进行编码发布,也不需要中断数据处理服务;
2、本发明实施例提供的多源异构数据的处理方法及装置,通过使用从缓存中获取到的最新的数据处理方法替换数据处理任务对应的当前数据处理方法,实现数据处理方法的动态更新,能够快速满足数据结构变化或清洗逻辑变化的需求;
3、本发明实施例提供的多源异构数据的处理方法及装置,可以快速整合不同系统的业务数据,转换为统一形式,便捷的满足上一层跨业务系统的数据实时分析需求。
需要说明的是:上述实施例提供的多源异构数据的处理装置在触发数据处理业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多源异构数据的处理装置与多源异构数据的处理方法实施例属于同一构思,即该装置是基于该多源异构数据的处理方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多源异构数据的处理方法,其特征在于,所述方法包括如下步骤:
数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成;
判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致,若不一致,则将从缓存获取到的所述数据处理方法作为当前数据处理方法;
使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据;
其中缓存中的数据处理方法通过以下方式获得:
将各种数据结构做抽象,将每种需要硬编码开发来解析获取数据的场景抽象为方法,直接映射成配置参数,通过提供配置台配置所述参数以满足不同数据结构的解析,其中配置台为web服务,以网页的形式提供交互式配置功能,当需要改变数据处理的输入输出数据结构时,在配置台对数据处理模板完成配置后,配置台将配置数据存储到模板库并同步到缓存中。
2.根据权利要求1所述的多源异构数据的处理方法,其特征在于,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据包括:
解析所述当前数据处理方法,至少获取数据来源信息以及处理规则;
根据所述数据来源信息从分布式消息队列中获取对应的待处理数据;
根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
3.根据权利要求2所述的多源异构数据的处理方法,其特征在于,所述使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据还包括:
识别所述待处理数据的数据结构,采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
4.根据权利要求1至3任一所述的多源异构数据的处理方法,其特征在于,所述方法还包括:
获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
5.根据权利要求1至3任一所述的多源异构数据的处理方法,其特征在于,使用所述当前数据处理方法对待处理数据进行处理前,所述方法还包括:
判断所述待处理数据的数据格式是否满足预设要求。
6.一种多源异构数据的处理装置,其特征在于,所述装置包括:
方法获取模块,用于数据处理任务定时从缓存中获取数据处理方法,其中,所述数据处理方法根据数据处理模板以及实时获取到的参数生成;
方法判断模块,用于判断从缓存中获取到的所述数据处理方法与所述数据处理任务对应的当前数据处理方法是否一致;
方法更新模块,用于将从缓存获取到的所述数据处理方法作为当前数据处理方法;
数据处理模块,用于使用所述当前数据处理方法对待处理数据进行处理,获取目标格式的数据;
其中缓存中的数据处理方法通过以下方式获得:
将各种数据结构做抽象,将每种需要硬编码开发来解析获取数据的场景抽象为方法,直接映射成配置参数,通过提供配置台配置所述参数以满足不同数据结构的解析,其中配置台为web服务,以网页的形式提供交互式配置功能,当需要改变数据处理的输入输出数据结构时,在配置台对数据处理模板完成配置后,配置台将配置数据存储到模板库并同步到缓存中。
7.根据权利要求6所述的多源异构数据的处理装置,其特征在于,所述数据处理模块包括:
方法解析单元,用于解析所述当前数据处理方法,至少获取数据来源信息以及处理规则;
数据获取单元,用于根据所述数据来源信息从分布式消息队列中获取对应的待处理数据;
数据计算单元,用于根据所述处理规则对所述待处理数据进行计算,获取目标格式的数据。
8.根据权利要求7所述的多源异构数据的处理装置,其特征在于,所述数据处理模块还包括:
结构识别单元,用于识别所述待处理数据的数据结构;
所述数据计算单元还用于采用与所述数据结构对应的处理规则对所述待处理数据进行计算,获取目标格式的数据。
9.根据权利要求6至8任一所述的多源异构数据的处理装置,其特征在于,所述装置还包括:
数据发送模块,用于获取所述当前数据处理方法中包含的目标源信息,将所述目标格式的数据发送至所述目标源。
10.根据权利要求6至8任一所述的多源异构数据的处理装置,其特征在于,所述装置还包括:
格式判断模块,用于判断所述待处理数据的数据格式是否满足预设要求。
CN202010110363.6A 2020-02-21 2020-02-21 一种多源异构数据的处理方法及装置 Active CN111339071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010110363.6A CN111339071B (zh) 2020-02-21 2020-02-21 一种多源异构数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010110363.6A CN111339071B (zh) 2020-02-21 2020-02-21 一种多源异构数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN111339071A CN111339071A (zh) 2020-06-26
CN111339071B true CN111339071B (zh) 2022-11-18

Family

ID=71181875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010110363.6A Active CN111339071B (zh) 2020-02-21 2020-02-21 一种多源异构数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN111339071B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287021B (zh) * 2020-07-13 2024-04-05 上海柯林布瑞信息技术有限公司 数据实时同步参数的生成、同步方法及装置、存储介质、终端
CN111737235B (zh) * 2020-08-12 2020-11-13 国网浙江省电力有限公司营销服务中心 用于电力行业的异构数据迁移方法
CN112507681A (zh) * 2020-12-12 2021-03-16 深圳市臻络科技有限公司 基于模板设计模式的多源异构医疗数据采集方法
CN112612840A (zh) * 2020-12-29 2021-04-06 清华大学 异构数据的处理方法、装置、设备及存储介质
CN112929129B (zh) * 2021-02-09 2022-07-12 中国人民解放军战略支援部队信息工程大学 基于动态冗余异构编码的数据处理系统、方法及设备
CN113806332B (zh) * 2021-08-23 2024-03-19 北京金蝶云基科技有限公司 一种异构系统集成数据处理方法、装置和计算机设备
CN114064720A (zh) * 2021-11-15 2022-02-18 中国建设银行股份有限公司 一种异构流数据处理方法及装置
CN114860797B (zh) * 2022-03-16 2023-05-26 电子科技大学 一种数据的衍生处理方法
CN115037610B (zh) * 2022-04-24 2023-09-22 浙江清捷智能科技有限公司 一种自动配置系统及自动配置方法
CN115145992B (zh) * 2022-09-05 2022-12-27 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质
CN115422305A (zh) * 2022-11-04 2022-12-02 暨南大学 网络社交媒体数据管理方法及装置
CN115659314B (zh) * 2022-12-13 2023-04-07 合肥喆塔科技有限公司 一种基于混合数据的数据服务方法
CN116894032B (zh) * 2023-09-05 2023-11-21 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484885A (zh) * 2016-10-17 2017-03-08 深圳市穗彩科技开发有限公司 多源异构数据的审计方法及系统
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN106484885A (zh) * 2016-10-17 2017-03-08 深圳市穗彩科技开发有限公司 多源异构数据的审计方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Service Level Semantic Interoperability;Asad Masood Khattak 等;《2010 10th Annual International Symposium on Applications and the Internet》;20101007;全文 *
多源异构大数据跨源调度方法仿真研究;贺晓勇;《计算机仿真》;20190315;全文 *

Also Published As

Publication number Publication date
CN111339071A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339071B (zh) 一种多源异构数据的处理方法及装置
CN110309264B (zh) 基于知识图谱获取地理产品数据的方法和装置
CN107103064B (zh) 数据统计方法及装置
CN110502509B (zh) 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置
CN107193967A (zh) 一种多源异构行业领域大数据处理全链路解决方案
JP2019532370A (ja) ユーザ権限データ検索方法および電子機器
CN106294439B (zh) 一种数据推荐系统及其数据推荐方法
US11809439B1 (en) Updating client dashboarding component of an asset monitoring and reporting system
CN109710703A (zh) 一种血缘关系网络的生成方法及装置
US20100318492A1 (en) Data analysis system and method
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN112527848B (zh) 基于多数据源的报表数据查询方法、装置、系统及存储介质
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
WO2024012221A1 (zh) 基于版式数据流文件底板创建虚拟服务共享池的方法
CN115374102A (zh) 数据处理方法及系统
CN114265680A (zh) 一种海量数据处理方法、装置、电子设备及存储介质
CN116662441A (zh) 一种分布式数据血缘构建及展现方法
CN114756629B (zh) 基于sql的多源异构数据交互分析引擎及方法
CN107871055B (zh) 一种数据分析方法和装置
CN115309767A (zh) 一种数据融合方法和装置
US10482268B1 (en) Systems and methods for access management
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN116431668A (zh) 基于元数据采集的数据血缘分析方法、装置及电子设备
Merino et al. Impact of data quality in real-time big data systems
CN206421382U (zh) 一种数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant