CN111159177B - 一种基于异构数据的数据融合方法、装置、设备及介质 - Google Patents
一种基于异构数据的数据融合方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111159177B CN111159177B CN201911260346.4A CN201911260346A CN111159177B CN 111159177 B CN111159177 B CN 111159177B CN 201911260346 A CN201911260346 A CN 201911260346A CN 111159177 B CN111159177 B CN 111159177B
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- rule
- landed
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 10
- 238000004140 cleaning Methods 0.000 claims abstract description 59
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims description 147
- 230000014509 gene expression Effects 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013515 script Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007499 fusion processing Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于异构数据的数据融合方法、装置、设备及介质,涉及大数据技术领域。本发明获取源数据中的目标源数据表,将该目标源数据表中的数据进行字段和数据格式的处理,得到待落地数据,根据清洗规则对待落地数据进行添加更新标记或清除标记,根据业务融合规则,利用待落地数据对本地数据表中需要特殊处理字段对应数据进行更新,并根据更新标记将更新标记对应的待落地数据中的数据更新到本地数据表中。实现了异构数据的落地,提高了开发效率,实现了复杂的业务需求,让数据的落地融合从单个独立开发走向流程化、标准化。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及一种基于异构数据的数据融合方法、装置、设备及介质。
背景技术
随着大数据和人工智能这两个“数据驱动”的行业兴起,数据对于企业越来越重要。而随着企业IT系统的建设,数据被不可避免的割裂到不同的IT系统中,信息孤岛的现象越来越明显。而大数据和人工智能的各种应用告诉我们,融合后的多维度的数据,所能产生的价值是远超想象的,因而企业目前越来越重视“数据资产”。而数据资产的前提,就是一份融合了企业各个方面的,有统一结构和规范的“完整”数据。
因为种种问题,现在企业的IT系统采用的数据规范都不一致,最终造成对于相同或者相近的逻辑概念,在不同的IT系统中的数据结构都不一致,这就是异构数据出现的最大原因,是企业统一数据规范遇到的最主要问题。
在现有技术中,数据的落地和融合均没有解决方案,需要开发人员根据规则一步一步开发,十分浪费人力。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于异构数据的数据融合方法、装置、设备及介质。
为了解决上述问题,第一方面本发明实施例公开了一种基于异构数据的数据融合方法,所述方法包括:
根据配置文件中的配置信息获取源数据中的目标源数据表到内存中;其中,所述配置信息至少包括格式调整规则和业务融合规则;
根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系;
根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的待落地数据;
将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记;
根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
优选的,所述根据所述配置信息在所述内存中建立映射关系的步骤,包括:
逐个获取所述目标源数据表的表名和字段名;
读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;
若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;
若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;
若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
优选的,根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的落地数据的步骤,包括:
读取所述配置文件中的所述格式调整规则,将所述目标源数据表中的数据表达形式和/或数字单位,转换成与所述本地数据表中的数据一致的形式,得到转化后的数据;
根据所述映射关系和所述转化后的数据,将所述目标源数据表转化成符合本地数据规范的所述待落地数据。
优选的,所述格式调整规则,包括:
所述目标源数据表中的数据表达形式的调整规则、和/或数字单位的调整规则;其中,
所述数据表达形式的调整规则,用于将所述目标源数据表中的数据表达形式转换成与所述本地数据表中的数据一致的形式;
所述数字单位的调整规则,用于所述目标源数据表中的数字单位转换成与所述本地数据表中的数据一致的形式。
优选的,所述将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记的步骤,包括:
读取所述配置信息中的清洗规则;
若所述清洗规则是比较所述待落地数据和所述本地数据表中数据的主键,则将所述本地数据表和所述待落地数据中每条数据的主键逐一进行匹配,当主键相同时,对所述待落地数据中与该主键对应的数据添加清除标记;当主键不相同时,对所述待落地数据中与该主键对应的数据添加更新标记;
若所述清洗规则是比较所述待落地数据和所述本地数据表中特定字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据的特定字段对应的数据逐一进行匹配,当特定字段对应的数据相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加清除标记;当特定字段对应的数据不相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加更新标记;
若所述清洗规则是比较所述待落地数据和所述本地数据表中所有字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据中各字段对应的数据逐一进行匹配,当所有字段对应的数据相同时,对所述待落地数据中该条数据添加清除标记;当所有字段对应的数据不完全相同时,对所述待落地数据中该条数据添加更新标记。
优选的,所述业务融合规则,包括:直接计算规则、SQL查询规则以及复杂处理规则中至少一种;其中,
所述直接计算规则以数学表达式的方式表达;
所述SQL查询规则以SQL语句的方式表达;
所述复杂处理规则以代码或脚本的方式表达。
第二方面,本发明实施例公开了一种基于异构数据的数据融合装置,所述装置包括:
数据获取模块,用于根据配置文件中的配置信息获取源数据中的目标源数据表到内存中;其中,所述配置信息至少包括格式调整规则和业务融合规则;
映射模块,用于根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系;
格式调整模块,用于根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的待落地数据;
数据清理模块,用于将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记;
业务融合模块,用于根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
优选的,所述映射模块,包括:
数据获取子模块,用于逐个获取所述目标源数据表的表名和字段名;
配置信息判断子模块,用于读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;
映射关系建立子模块,用于若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
优选的,所述格式调整模块,包括:
格式转化子模块,用于读取所述配置文件中的所述格式调整规则,将所述目标源数据表中的数据表达形式和/或数字单位,转换成与所述本地数据表中的数据一致的形式,得到转化后的数据;
待落地数据转化子模块,用于根据所述映射关系和所述转化后的数据,将所述目标源数据表转化成符合本地数据规范的所述待落地数据。
优选的,所述格式调整规则,包括:
所述目标源数据表中的数据表达形式的调整规则、和/或数字单位的调整规则;其中,
所述数据表达形式的调整规则,用于将所述目标源数据表中的数据表达形式转换成与所述本地数据表中的数据一致的形式;
所述数字单位的调整规则,用于所述目标源数据表中的数字单位转换成与所述本地数据表中的数据一致的形式。
优选的,所述数据清理模块,包括:
清洗规则读取子模块,用于读取所述配置信息中的清洗规则;
数据标记子模块,用于若所述清洗规则是比较所述待落地数据和所述本地数据表中数据的主键,则将所述本地数据表和所述待落地数据中每条数据的主键逐一进行匹配,当主键相同时,对所述待落地数据中与该主键对应的数据添加清除标记;当主键不相同时,对所述待落地数据中与该主键对应的数据添加更新标记;若所述清洗规则是比较所述待落地数据和所述本地数据表中特定字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据的特定字段对应的数据逐一进行匹配,当特定字段对应的数据相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加清除标记;当特定字段对应的数据不相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加更新标记;若所述清洗规则是比较所述待落地数据和所述本地数据表中所有字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据中各字段对应的数据逐一进行匹配,当所有字段对应的数据相同时,对所述待落地数据中该条数据添加清除标记;当所有字段对应的数据不完全相同时,对所述待落地数据中该条数据添加更新标记。
优选的,所述业务融合规则,包括:直接计算规则、SQL查询规则以及复杂处理规则中至少一种;其中,
所述直接计算规则以数学表达式的方式表达;
所述SQL查询规则以SQL语句的方式表达;
所述复杂处理规则以代码或脚本的方式表达。
第三方面,本发明实施例公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如所述第一方面中任一项所述的一种基于异构数据的数据融合方法的步骤。
第四方面,本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述第一方面中任一项所述的一种基于异构数据的数据融合方法的步骤。
本发明实施例包括以下优点:
本发明一方面,先通过获取源数据中的目标源数据表;然后将该目标源数据表中的数据进行字段和数据格式的处理,得到待落地数据;最后根据清洗规则对待落地数据中的数据进行添加更新标记或清除标记。这些步骤涵盖了数据落地融合过程中的大部分需求;另一方面,通过根据业务融合规则,利用待落地数据对本地数据表中需要特殊处理的字段对应数据进行更新,并根据更新标记将更新标记对应的待落地数据中的数据更新到本地数据表中的步骤,提供了相关机制供用户定制规则,兼顾了系统的灵活性。
本发明的方法处理能力、表达能力强大以及异构数据融合与业务无关;其中,处理能力强大,兼顾通用性和可扩展性,能有效提高开发效率;表达能力强大,业务规则的描述理论上仅受限于开发语言的能力,可以实现各种复杂需求;与业务无关,整个技术框架与业务无关,能够灵活适应各种生产环境和需求。同时,本发明让数据的落地融合从单个独立开发走向流程化、标准化。在降低开发人员工作量的同时,也提高了数据落地融合功能的健壮性和稳定性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于异构数据的数据融合方法的步骤流程图;
图2是本发明提供的一种基于异构数据的数据融合装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
目前,行业内普遍使用ETL(data Extract-Transform-Load,数据抽取传输加载)工具来完成数据融合的工作。例如,一些图形化的ETL工具如DataStage、Informatica、Kettle等。这些技术的缺点具体如下:
1、这些ETL工具对数据落地和融合时要做的工作支持相对较弱。因为不同的业务有不同的处理方式,所以对灵活性要求比较大;而这些工具多采用的是图形界面,虽然抽象出若干组件供用户自由组合,但是表现能力上多少受到制约,无法适应数据融合时对灵活性的要求。
2、使用ETL工具很难对已有工作利旧。以Kettle为例,它内部采用Job(任务)、Transformation(转换)和Step(步骤)等概念来将复杂的任务进行分解,但因为分解后的步骤业务和规则是参杂在一起的,实际复用的时候比较麻烦,需要将原步骤中的各种业务规则和数据全部重写,实际上,这也相当于是重新开发了。
因此,本发明旨在针对ETL工具对数据如何落地以及数据如何融合都没有解决方案的不足进行弥补,专注于提供数据落地和融合方案。本发明一方面,通过抽象出来的步骤涵盖了数据落地融合过程中的大部分需求;另一方面,也提供了相关机制供用户定制规则,兼顾了系统的灵活性。
参照图1,示出了本发明提供的一种基于异构数据的数据融合方法的步骤流程图。具体步骤如下:
步骤101,根据配置文件中的配置信息获取源数据中的目标源数据表到内存中。
其中,异构数据是指源数据的存储方式,管理方式,数据结构等方面和目标数据不一致。异构数据是企业IT的一个现状,是因为逐步建设IT系统的过程中产生的。
在本发明实施例中,配置文件是通过线下业务需求分析人员对具体业务分析得到分析结果后,根据该分析结果在系统中生成的。
在实际应用中,线下业务需求分析人员对源数据和本地数据表中的数据进行比较分析,得到获取源数据中哪些数据的分析结果,将该分析结果写入配置文件中,即该分析结果为配置文件中配置信息包括的格式调整规则、业务融合规则、映射规则以及清洗规则。当系统开始启动对异构数据进行融合时,系统首先读取配置文件中的配置信息;然后,根据该配置信息在源数据中获取与配置信息相对应的目标源数据表;最后,将该目标源数据表存储在系统的内存中。需要说明的是,源数据可能在远端,也可能在本地,如果源数据在远端时,上述获取目标源数据表的过程中还有一个关于目标源数据表的数据传输过程,即将上述目标源数据表通过网络从远端传输到本地系统中。
同时,上述配置信息中包括的映射规则、格式调整规则、清洗规则以及业务融合规则,均是线下业务需求分析人员在结合具体业务进行分析后,根据实际需求在配置文件中灵活配置的。
步骤102,根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系。
其中,数据落地特指数据在传输到本地后,持久化到本地存储介质中的过程。
在本发明实施例中配置信息中的映射规则共有三种情况:目标源数据表和本地数据表中字段的映射规则、目标源数据表和本地数据表的表名的映射规则、以及上述两种映射规则均没有的情况。需要说明的是上述映射规则有优先级,系统在配置信息中读取这些映射规则时,先读取上述字段的映射规则,再读取上述表名的映射规则,最后若上述两种映射规则均没有则默认使用将目标源数据表和本地数据表中字段名相同的字段建立映射关系的映射规则。
具体的,逐个获取所述目标源数据表的表名和字段名;读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
在实际应用中,首先,系统逐个获取目标源数据表的表名和字段名;
然后,系统读取配置信息中记载的映射规则;
接着,判断是否有目标源数据表中字段和本地数据表中字段的映射规则;若有,则根据上述字段的映射规则,用目标源数据表中的字段和本地数据表中对应的字段在系统内存中建立映射关系;
再接着,判断是否有目标源数据表的表名和本地数据表的表名的映射规则;若有,则根据上述表名的映射规则,用目标源数据表的表名和本地数据表的对应表名在上述系统内存中建立映射关系;
最后,当判断出上述配置信息中既没有字段的映射规则,也没有上述表名的映射规则;则系统将默认在上述系统内存中将目标源数据表和本地数据表中字段名相同的字段建立相同字段名的映射关系。
需要说明的是在执行映射操作时,仅仅只是在系统内存中对具有映射关系的字段、或/和表名做标记,并不会进行真正的数据处理。因此,此时目标源数据表和本地数据表中的数据还未进行统一的处理,需要在统一目标源数据表和本地数据表中数据的格式后,才会将目标源数据表中的数据转化成待落地数据。
本发明实施例中,先在内存中建立目标源数据表和本地数据表中含义相同但是命名不同的字段的映射关系;若上述两个表中还有含义相同命名也同的字段,则将上述两个表的表名在内存中建立映射关系。这样做的有益效果在于具有相同含义和命名的字段不需要在配置文件中,减少了线下需求分析人员在配置文件中添加字段映射规则的工作量;同时,在配置信息中完全没有表名和字段名的映射规则时,系统将根据目标源数据表中每个字段的名称去遍历寻找本地数据表中具有相同字段名称的字段在上述内存中建立映射关系,这就更加的减轻了线下需求分析人员对于构建配置信息中映射规则的工作量。
举例说明:同一个逻辑属性,如学号。在教务系统内学号可能被命名为“studentNo”,而在学工系统内可能被命名为“stuNo”,在智慧校园系统的规范中被命名为“XH”(国家标准)。因此,在将教务系统中的数据作为异构数据融合到智慧校园系统中时,会将字段“studentNo”映射成字段“XH”,同理,在学工系统的数据作为异构数据融合到智慧校园系统中时,会将字段“stuNo”映射成字段“XH”。这样做的好处在于,以便于在后期的数据转换以及保存时,能够将正确的数据保存在正确的位置。映射仅做标记,因为后期还有数据格式调整的步骤。
步骤103,根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的待落地数据。
具体的,读取所述配置文件中的所述格式调整规则,将所述目标源数据表中的数据表达形式和/或数字单位,转换成与所述本地数据表中的数据一致的形式,得到转化后的数据;根据所述映射关系和所述转化后的数据,将所述目标源数据表转化成符合本地数据规范的落地数据。
其中,数据规范是指给系统中的所有数据制定一个统一的定义,既便于参与人员理解的一致,以利于系统的统一处理,数据规范也叫数据标准。
在本发明实施例中,系统中还有一个公式库表,线下业务需求分析人员会判断目标源数据表中的数据表达形式和/或数字单位是否符合本地数据规范,对那些不符合本地数据规范的数据表达形式和/或数字单位,会调用上述公式库表中能够将不符合本地数据规范的数据表达形式和/或数字单位转化为符合规范的公式或/和表达格式,并配置在配置文件中,即在配置信息中配置格式调整规则;如果在上述公式库表中没有找到合适的公式或/和表达格式,那么线下业务需求分析人员会在该表中添加新的公式或/和表达格式,使其能够被调用和配置。
在系统得到落地数据的步骤中,首先,读取配置文件中线下业务需求分析人员配置的格式调整规则;然后,将目标源数据表中不符合本地数据规范的数据对应的带入格式调整规则中,通过该格式调整规则将目标源数据表中的数据表达形式和/或数字单位,转换成与本地数据表中的数据一致的形式,得到转化后的数据;最后,根据转化后的数据和步骤102中的映射关系,将目标源数据表转化成符合本地数据规范的待落地数据。
在实际应用中,目标源数据表和本地数据表中的数据有两种不同的情况:数据的表达形式不同和数据的数字单位不同,具体的:
表达形式不同:目标源数据表中的数据和本地数据表中的数据即使逻辑含义相同,其数据的表达形式也可能不相同,如时间格式、数制、计数方式等的不同。因此,需要在配置文件中配置让目标源数据表中这些数据转化成与本地数据表有相同表达形式的格式调整规则。
数字单位不同:目标源数据表和本地数据表中数据的数字单位不同,且在需要该条数据中的数值进行计算时,因为单位的不同,因此计算结果也将是错误的。基于此,在目标源数据表与本地数据表中数据的数字单位不同时,会在配置文件中配置让目标源数据表中单位不相同的数据转化成与本地数据表中对应数据单位的格式调整规则。
例如,系统读取配置文件中的格式调整规则(如,摄氏/华氏温度的转换公式)后,将目标源数据表中不符合本地数据规范的数据(如温度单位不同的情况)带入该公式中,将目标源数据表中的温度单位不相同的数据转化为符合本地数据规范的数值单位(符合本地数据表中对应数据的单位)。对表达形式的转换过程和上述过程相同,在此做累述。最后,读取配置文件中的映射关系和转化后的数据对目标源数据表进行转化,得到符合本地数据规范的待落地数据。
在本步骤中,因为数据的多样性,所以表达形式、数值单位均有可能不同的情况。因此,配置文件中可以根据实际情况进行择一配置或全部配置。
步骤104,将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记。
其中,数据融合是指将多个数据源中的数据进行融合,最终形成一份能够包含所有数据源中数据信息的数据。
具体的,清洗规则包括:根据比较待落地数据和本地数据表中每条数据的主键是否相同,对相同的主键对应的整条数据添加清除标记,对不相同的主键对应的整条数据添加更新标记;根据比较待落地数据和本地数据表中每条数据中每个字段对应数据是否相同,对完全相同的整条数据添加清除标记,对有不相同的整条数据添加更新标记;根据比较待落地数据和本地数据表中每条数据中特定字段对应的数据是否相同,完全相同时对整条数据添加删除标记,有不相同时对整条数据添加更新标记。需要说明的是上述添加的更新或删除标记均是在系统内存中。
在实际应用中,比较待落地数据和本地数据表中数据的主键的清洗规则,是针对该条数据是标准数据,如专业数据信息,这些数据信息一般不会变化。因此,只需要判断这些数据信息和本地数据表中相应数据的主键是否相同,就可以判断这些数据信息是否与本地数据表中的数据重复;如果主键相同,就判定该数据信息和本地数据表中的信息重复,之后对这些数据信息添加清除标记;如果主键不相同,就判定该数据信息和本地数据表中的信息不重复,之后对这些数据信息添加更新标记。
而比较待落地数据和本地数据表中数据中每条数据中每个字段对应数据是否相同,和比较待落地数据和本地数据表中每条数据中特定字段对应的数据是否相同的清洗规则,是针对非标准数据。例如学生登记信息或实验室器材消耗数据等。有的数据只需判断其中的关键字段的信息就可以判断该条数据是否是重复数据,而有的数据必须比较全部字段对应的数据才能判断该条数据是否是重复数据,这些均需要线下需求分析人员根据具体业务选择合适的清洗规则添加到配置文件中。
系统执行数据清理的具体步骤如下:
首先,读取配置文件中的配置信息的清洗规则;
然后,判断清洗规则的类型,根据清洗规则的类型获取待落地数据中的数据;
最后,若清洗规则是比较待落地数据和本地数据表中数据的主键,则将本地数据表和待落地数据中每条数据的主键逐一进行匹配,当主键相同时,对待落地数据中与该主键对应的数据添加清除标记;当主键不相同时,对待落地数据中与该主键对应的数据添加更新标记;
若清洗规则是比较待落地数据和本地数据表中特定字段对应的数据,则将本地数据表和待落地数据中每条数据的特定字段对应的数据逐一进行匹配,当特定字段对应的数据相同时,对待落地数据中与该特定字段对应的数据的整条数据添加清除标记;当特定字段对应的数据不相同时,对待落地数据中与该特定字段对应的数据的整条数据添加更新标记;
若清洗规则是比较待落地数据和本地数据表中所有字段对应的数据,则将本地数据表和待落地数据中每条数据中各字段对应的数据逐一进行匹配,当所有字段对应的数据相同时,对所述待落地数据中该条数据添加清除标记;当所有字段对应的数据不完全相同时,对待落地数据中该条数据添加更新标记。
举例说明,针对待落地数据中的一条数据,其中ID、学号、手机号是重要信息,只要这些数据相同就可以判定这些数据对应的整条数据为重复数据。即本地数据表中有一条数据中包含了相同的ID、学号、手机号,才能判定该条数据对于本地数据表在待落地数据中是重复数据;根据待落地数据中ID、学号、手机号对应的数据比较本地数据表中每条数据中ID、学号、手机号字段对应的数据,若本地数据表中有ID、学号、手机号字段对应数据完全相同时,则对待落地数据中的该条数据添加清除标记;若本地数据表中有ID、学号、手机号字段对应数据不相同时,则对待落地数据中的该条数据添加更新标记。其中,该条数据的其它数据如名称、年龄对重复性的判定无关紧要,也不会去关注。
针对待落地数据中的一条数据,其中该条数据是判断车辆在高速中是否超速的标准数据,则根据该条数据的主键比较本地数据表中每条数据的主键值,若在本地数据表中有相同的主键,则将待落地数据中该主键对应的整条数据添加清除标记;若在本地数据表中没有相同的主键,则将待落地数据中该主键对应的整条数据添加更新标记。
针对待落地数据中的一条数据,其中该条数据是人口普查信息,则将该条数据中所有字段的对应数据和本地数据表中每条数据对应字段的数据进行比较,只有完全相同的情况才对待落地数据中的该条数据添加删除标记,其它情况添加更新标记。
本发明实施例中通过上述三种清理规则的数据处理,只要是需要判断两条数据是否是相同的情形都能满足,区分出了重复数据,为复杂的业务融合提供了基础。
步骤105,根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
具体的,所述业务融合规则,包括:直接计算规则、SQL查询规则以及复杂处理规则中至少一种;其中,所述直接计算规则以数学表达式的方式表达;所述SQL查询规则以SQL语句的方式表达;所述复杂处理规则以代码或脚本的方式表达。
在本发明实施例中,业务融合规则用于线下业务需求分析人员根据实际的业务情况,在配置文件中添加的表达式、或/和SQL语句、或/和程序代码(或脚本),具体如下:
在需要进行直接进行计算时,线下业务需求分析人员在配置文件中添加相应的数学表达式,将待落地数据中作为参数的数据带入该数学表达式中,用该数学表达式的计算结果填入本地数据表的对应字段中;其中,作为参数的数据被包含在带有更新标记的数据中。
在需要进行查询时,线下业务需求分析人员在配置文件中添加SQL语句,用该SQL语句查询待落地数据中的某些带有更新标记的数据,将查询结果填入本地数据表中对应字段中。例如,查询待落地数据中某个字段中所有数据的平均数,就可以在配置文件中配置一个求平均数的SQL语句,让系统读取该语句后,对待落地数据中的该字段数据求平均数值,最后将该值填入本地数据表对应的字段中。
在需要复杂处理时,线下业务需求分析人员在配置文件中添加程序代码(或脚本),将待落地数据中的某些待更新标记的数据作为常量带入该程序代码(或脚本)中,让该程序代码(或脚本)的执行结果填入本地数据表对应的字段中。
在实际应用中,系统首先读取配置文件中的业务融合规则;然后根据业务融合规则和待落地数据中带有更新标记的数据对本地数据表中需要复杂处理的字段进行更新操作;最后将待落地数据中带有更新标记的数据更新到本地数据表中。
在本发明实施例中,可以先用业务融合规则对本地数据表中对应字段的数据进行复杂的更新处理,再通过更新标记将待落地数据中的对应数据更新到本地数据表中。本发明实施例中上述两个步骤可以同时进行,本发明对此并不做要求。
上述实施例的有益效果:
本发明一方面,先通过获取源数据中的目标源数据表;然后将该目标源数据表中的数据进行字段和数据格式的处理,得到待落地数据;最后根据清洗规则对待落地数据中的数据进行添加更新标记或清除标记。这些步骤涵盖了数据落地融合过程中的大部分需求;另一方面,通过根据业务融合规则,利用待落地数据对本地数据表中需要特殊处理的字段对应数据进行更新,并根据更新标记将更新标记对应的待落地数据中的数据更新到本地数据表中的步骤,提供了相关机制供用户定制规则,兼顾了系统的灵活性。
本发明的方法处理能力、表达能力强大以及异构数据融合与业务无关;其中,处理能力强大,兼顾通用性和可扩展性,能有效提高开发效率;表达能力强大,业务规则的描述理论上仅受限于开发语言的能力,可以实现各种复杂需求;与业务无关,整个技术框架与业务无关,能够灵活适应各种生产环境和需求。同时,本发明让数据的落地融合从单个独立开发走向流程化、标准化。在降低开发人员工作量的同时,也提高了数据落地融合功能的健壮性和稳定性。
参照图2,示出了本发明提供的一种基于异构数据的数据融合装置的结构框图。具体模块如下:
数据获取模块201,用于根据配置文件中的配置信息获取源数据中的目标源数据表到内存中;其中,所述配置信息至少包括格式调整规则和业务融合规则。
映射模块202,用于根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系。
优选的,映射模块202还包括以下子模块:
数据获取子模块2021,用于逐个获取所述目标源数据表的表名和字段名;
配置信息判断子模块2022,用于读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;
映射关系建立子模块2023,用于若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
格式调整模块203,用于根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的待落地数据。
优选的,格式调整模块203还包括以下子模块:
格式转化子模块2031,用于读取所述配置文件中的所述格式调整规则,将所述目标源数据表中的数据表达形式和/或数字单位,转换成与所述本地数据表中的数据一致的形式,得到转化后的数据;
待落地数据转化子模块2032,用于根据所述映射关系和所述转化后的数据,将所述目标源数据表转化成符合本地数据规范的所述待落地数据。
数据清理模块204,用于将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记。
优选的,数据清理模块204包括如下子模块:
清洗规则读取子模块2041,用于读取所述配置信息中的清洗规则;
数据标记子模块2042,用于若所述清洗规则是比较所述待落地数据和所述本地数据表中数据的主键,则将所述本地数据表和所述待落地数据中每条数据的主键逐一进行匹配,当主键相同时,对所述待落地数据中与该主键对应的数据添加清除标记;当主键不相同时,对所述待落地数据中与该主键对应的数据添加更新标记;若所述清洗规则是比较所述待落地数据和所述本地数据表中特定字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据的特定字段对应的数据逐一进行匹配,当特定字段对应的数据相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加清除标记;当特定字段对应的数据不相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加更新标记;若所述清洗规则是比较所述待落地数据和所述本地数据表中所有字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据中各字段对应的数据逐一进行匹配,当所有字段对应的数据相同时,对所述待落地数据中该条数据添加清除标记;当所有字段对应的数据不完全相同时,对所述待落地数据中该条数据添加更新标记。
业务融合模块205,用于根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
优选的,所述格式调整规则,包括:
所述目标源数据表中的数据表达形式的调整规则、和/或数字单位的调整规则;其中,
所述数据表达形式的调整规则,用于将所述目标源数据表中的数据表达形式转换成与所述本地数据表中的数据一致的形式;
所述数字单位的调整规则,用于所述目标源数据表中的数字单位转换成与所述本地数据表中的数据一致的形式。
优选的,所述业务融合规则,包括:直接计算规则、SQL查询规则以及复杂处理规则中至少一种;其中,
所述直接计算规则以数学表达式的方式表达;
所述SQL查询规则以SQL语句的方式表达;
所述复杂处理规则以代码或脚本的方式表达。
基于同一发明构思,本发明另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本发明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种基于异构数据的数据融合方法,其特征在于,所述方法包括:
根据配置文件中的配置信息获取源数据中的目标源数据表到内存中;其中,所述配置信息至少包括格式调整规则和业务融合规则;
根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系,或所述目标源数据表和所述本地数据表中字段名相同的字段的映射关系;
根据所述格式调整规则和所述映射关系,将所述目标源数据表在所述内存中转化成符合本地数据规范的待落地数据;
将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据所述匹配结果在所述内存中对所述待落地数据中的数据添加更新标记或清除标记;
根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述配置信息在所述内存中建立映射关系的步骤,包括:
逐个获取所述目标源数据表的表名和字段名;
读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;
若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;
若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;
若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
3.根据权利要求1所述的方法,其特征在于,根据所述格式调整规则和所述映射关系,将所述目标源数据表转化成符合本地数据规范的落地数据的步骤,包括:
读取所述配置文件中的所述格式调整规则,将所述目标源数据表中的数据表达形式和/或数字单位,转换成与所述本地数据表中的数据一致的形式,得到转化后的数据;
根据所述映射关系和所述转化后的数据,将所述目标源数据表转化成符合本地数据规范的所述待落地数据。
4.根据权利要求3所述的方法,其特征在于,所述格式调整规则,包括:
所述目标源数据表中的数据表达形式的调整规则、和/或数字单位的调整规则;其中,
所述数据表达形式的调整规则,用于将所述目标源数据表中的数据表达形式转换成与所述本地数据表中的数据一致的形式;
所述数字单位的调整规则,用于所述目标源数据表中的数字单位转换成与所述本地数据表中的数据一致的形式。
5.根据权利要求1所述的方法,其特征在于,所述将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据匹配结果对所述待落地数据中的数据添加更新标记或清除标记的步骤,包括:
读取所述配置信息中的清洗规则;
若所述清洗规则是比较所述待落地数据和所述本地数据表中数据的主键,则将所述本地数据表和所述待落地数据中每条数据的主键逐一进行匹配,当主键相同时,对所述待落地数据中与该主键对应的数据添加清除标记;当主键不相同时,对所述待落地数据中与该主键对应的数据添加更新标记;
若所述清洗规则是比较所述待落地数据和所述本地数据表中特定字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据的特定字段对应的数据逐一进行匹配,当特定字段对应的数据相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加清除标记;当特定字段对应的数据不相同时,对所述待落地数据中与该特定字段对应的数据的整条数据添加更新标记;
若所述清洗规则是比较所述待落地数据和所述本地数据表中所有字段对应的数据,则将所述本地数据表和所述待落地数据中每条数据中各字段对应的数据逐一进行匹配,当所有字段对应的数据相同时,对所述待落地数据中该条数据添加清除标记;当所有字段对应的数据不完全相同时,对所述待落地数据中该条数据添加更新标记。
6.权利要求1所述的方法,其特征在于,所述业务融合规则,包括:直接计算规则、SQL查询规则以及复杂处理规则中至少一种;其中,
所述直接计算规则以数学表达式的方式表达;
所述SQL查询规则以SQL语句的方式表达;
所述复杂处理规则以代码或脚本的方式表达。
7.一种基于异构数据的数据融合装置,其特征在于,所述装置包括:
数据获取模块,用于根据配置文件中的配置信息获取源数据中的目标源数据表到内存中;其中,所述配置信息至少包括格式调整规则和业务融合规则;
映射模块,用于根据所述配置信息在所述内存中建立映射关系;其中,所述映射关系为所述目标源数据表中字段和本地数据表中字段的映射关系,或所述目标源数据表和所述本地数据表的映射关系,或所述目标源数据表和所述本地数据表中字段名相同的字段的映射关系;
格式调整模块,用于根据所述格式调整规则和所述映射关系,将所述目标源数据表在所述内存中转化成符合本地数据规范的待落地数据;
数据清理模块,用于将所述待落地数据中的数据与所述本地数据表中的数据进行匹配,得到匹配结果,并根据所述匹配结果在所述内存中对所述待落地数据中的数据添加更新标记或清除标记;
业务融合模块,用于根据所述业务融合规则,利用所述待落地数据中带有所述更新标记的数据对所述本地数据表中需要处理的字段进行更新,并根据所述更新标记将所述更新标记对应的所述待落地数据中数据更新到所述本地数据表中。
8.根据权利要求7所述的装置,其特征在于,所述映射模块,包括:
数据获取子模块,用于逐个获取所述目标源数据表的表名和字段名;
配置信息判断子模块,用于读取所述配置信息,判断所述配置信息中是否有所述目标源数据表和所述本地数据表的字段的映射规则,以及表的映射规则;
映射关系建立子模块,用于若有所述字段的映射规则,则根据所述字段的映射规则将所述目标源数据表和所述本地数据表中的对应字段在所述内存中建立映射关系;若有所述表的映射规则,则根据所述表的映射规则将所述目标源数据表和所述本地数据表的表名在所述内存中建立映射关系;若没有所述字段的映射规则和没有所述表的映射规则,则将所述目标源数据表和所述本地数据表中字段名相同的字段在所述内存中建立映射关系。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述的一种基于异构数据的数据融合方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的一种基于异构数据的数据融合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260346.4A CN111159177B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异构数据的数据融合方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260346.4A CN111159177B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异构数据的数据融合方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159177A CN111159177A (zh) | 2020-05-15 |
CN111159177B true CN111159177B (zh) | 2023-11-07 |
Family
ID=70556646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260346.4A Active CN111159177B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异构数据的数据融合方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159177B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626882B (zh) * | 2020-05-28 | 2022-07-19 | 泰康保险集团股份有限公司 | 数据检测方法、装置、计算机可读介质及电子设备 |
CN112486971B (zh) * | 2020-12-08 | 2024-03-26 | 企查查科技股份有限公司 | 具有修正功能的数据清洗方法、设备和存储介质 |
CN112612840A (zh) * | 2020-12-29 | 2021-04-06 | 清华大学 | 异构数据的处理方法、装置、设备及存储介质 |
CN115659314B (zh) * | 2022-12-13 | 2023-04-07 | 合肥喆塔科技有限公司 | 一种基于混合数据的数据服务方法 |
CN115840742B (zh) * | 2023-02-13 | 2023-05-12 | 每日互动股份有限公司 | 一种数据清洗方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN106777150A (zh) * | 2016-12-19 | 2017-05-31 | 国网山东省电力公司电力科学研究院 | 一种融合电网运行环境及设备信息的跨系统数据转换方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
CN108984652A (zh) * | 2018-06-27 | 2018-12-11 | 北京圣康汇金科技有限公司 | 一种可配置数据清洗系统和方法 |
CN109977110A (zh) * | 2019-04-28 | 2019-07-05 | 杭州数梦工场科技有限公司 | 数据清洗方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596573B2 (en) * | 2003-06-11 | 2009-09-29 | Oracle International Corporation | System and method for automatic data mapping |
US9652312B2 (en) * | 2014-07-03 | 2017-05-16 | FishEye Products, LLC | Realtime processing of streaming data |
-
2019
- 2019-12-10 CN CN201911260346.4A patent/CN111159177B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN106777150A (zh) * | 2016-12-19 | 2017-05-31 | 国网山东省电力公司电力科学研究院 | 一种融合电网运行环境及设备信息的跨系统数据转换方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
CN108984652A (zh) * | 2018-06-27 | 2018-12-11 | 北京圣康汇金科技有限公司 | 一种可配置数据清洗系统和方法 |
CN109977110A (zh) * | 2019-04-28 | 2019-07-05 | 杭州数梦工场科技有限公司 | 数据清洗方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111159177A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159177B (zh) | 一种基于异构数据的数据融合方法、装置、设备及介质 | |
Zhu et al. | A framework-based approach to utility big data analytics | |
US10453165B1 (en) | Computer vision machine learning model execution service | |
WO2021032146A1 (zh) | 元数据管理方法和装置、设备及存储介质 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
KR20210008545A (ko) | 보고서 자동 생성 기반의 업무 프로세스 관리 시스템 제공 방법 | |
CN112672370A (zh) | 网元指标数据的自动检测方法及系统、设备和存储介质 | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
CN108446262A (zh) | 一种表单生成、分析方法及装置 | |
CN112131239B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
US10360208B2 (en) | Method and system of process reconstruction | |
Szekely et al. | Exploiting semantics of web services for geospatial data fusion | |
WO2017208922A1 (ja) | データ交換システム、データ交換方法、及びデータ交換プログラム | |
KR20140036869A (ko) | 환경 페더레이트 자동 생성을 위한 hlt/rti 기반의 분산처리 시스템 | |
CN110716913A (zh) | 一种Kafka与Elasticsearch数据库数据的互相迁移方法 | |
CN105488229A (zh) | 一种异构数据环境下的数据交换与集成方法 | |
CN116306662A (zh) | 一种基于物联网标识的生产要素管理系统及方法 | |
CN113849692A (zh) | 一种数据交换方法及系统、电子设备、存储介质 | |
US10783132B1 (en) | System for maintaining precomputed values determined from data sources | |
CN114879937B (zh) | 一种衍生指标的生成方法、装置及存储介质 | |
Ladra et al. | A toponym resolution service following the OGC WPS standard | |
CN111966666A (zh) | 一种数据集成管理、开发方法及平台 | |
Kambe et al. | A Method for Analyzing and Visualizing Intermodule Relations to Support the Reuse‐Based Embedded Software Development | |
CN113282276B (zh) | 一种模型的映射方法和装置 | |
CN114398374B (zh) | 一种地质调查智能空间的数据资源治理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |